masani commited on Apr 2

Commit

e94968b

verified ·

1 Parent(s): 11df375

End of training

Browse files

Files changed (37) hide show

.gitattributes +1 -0
.hydra/config.yaml +47 -0
.hydra/hydra.yaml +159 -0
.hydra/overrides.yaml +2 -0
README.md +58 -0
config.json +40 -0
epoch1/config.json +40 -0
epoch1/generation_config.json +6 -0
epoch1/merges.txt +0 -0
epoch1/model-00001-of-00002.safetensors +3 -0
epoch1/model-00002-of-00002.safetensors +3 -0
epoch1/model.safetensors.index.json +587 -0
epoch1/special_tokens_map.json +6 -0
epoch1/tokenizer.json +0 -0
epoch1/tokenizer_config.json +22 -0
epoch1/training_args.bin +3 -0
epoch1/vocab.json +0 -0
generation_config.json +6 -0
merges.txt +0 -0
model-00001-of-00002.safetensors +3 -0
model-00002-of-00002.safetensors +3 -0
model.safetensors.index.json +587 -0
sft_pretrain_and_pushtohub.log +7 -0
special_tokens_map.json +6 -0
tokenizer.json +0 -0
tokenizer_config.json +22 -0
training_args.bin +3 -0
vocab.json +0 -0
wandb/debug-internal.log +7 -0
wandb/debug.log +25 -0
wandb/run-20250402_145246-e1n3xkh6/files/output.log +123 -0
wandb/run-20250402_145246-e1n3xkh6/files/requirements.txt +164 -0
wandb/run-20250402_145246-e1n3xkh6/files/wandb-metadata.json +46 -0
wandb/run-20250402_145246-e1n3xkh6/logs/debug-core.log +6 -0
wandb/run-20250402_145246-e1n3xkh6/logs/debug-internal.log +7 -0
wandb/run-20250402_145246-e1n3xkh6/logs/debug.log +25 -0
wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb filter=lfs diff=lfs merge=lfs -text

.hydra/config.yaml ADDED Viewed

	@@ -0,0 +1,47 @@

+log_dir: ${oc.env:PROJECT_ROOT}/logs/sft_pretrain_and_pushtohub
+generate_prompt: src.utils.return_generate_prompt
+wandb_config:
+  name: ${model.model_name}
+  project: sft_on_${task.task_name}
+  dir: ${log_dir}/${task.task_name}-${model.model_name}/${now:%Y-%m-%d}_${now:%H-%M-%S}
+  notes: null
+trainer_args:
+  _target_: trl.SFTConfig
+  per_device_train_batch_size: 8
+  per_device_eval_batch_size: 16
+  num_train_epochs: 10
+  logging_dir: ${log_dir}/${task.task_name}-${model.model_name}/${now:%Y-%m-%d}_${now:%H-%M-%S}
+  push_to_hub: false
+  save_strategy: epoch
+  evaluation_strategy: epoch
+  batch_eval_metrics: true
+  do_train: true,
+  do_eval: true,
+  output_dir: ${.logging_dir}
+  report_to: wandb
+  logging_steps: 10
+task:
+  dataset:
+    _target_: datasets.load_dataset
+    path: openai/gsm8k
+    name: main
+  prompt_key: question
+  target_key: answer
+  default_prompt: "1. Always present the final answer on the last line of your response\
+    \ in the format: #### <answer> Ensure that the answer is a single number. \n 2.\
+    \ End each sentence with a newline character ('\\n'). \n 3. Perform any calculations\
+    \ within a <<...>> block before outputing the result of this calculation."
+  extract_answer_from_dataset: src.task.gsm8k.ExtractAnswerFromDataset
+  task_name: gsm8k
+  reward_class:
+    _target_: src.task.gsm8k.GSM8KReward
+    LOG_FILE: ${trainer.args.output_dir}/completions.json
+  format_reward_function: src.task.gsm8k.FormatRewardFunction
+model:
+  model_name_or_path: openai-community/gpt2-xl
+  model_name: gpt2-xl
+  model_config:
+    _target_: trl.ModelConfig
+    use_peft: false
+dataset_wrapper:
+  _target_: src.utils.CurriculumDatasetWrapper

.hydra/hydra.yaml ADDED Viewed

	@@ -0,0 +1,159 @@

+hydra:
+  run:
+    dir: ${log_dir}/${task.task_name}-${model.model_name}/${now:%Y-%m-%d}_${now:%H-%M-%S}
+  sweep:
+    dir: ${log_dir}/${task.task_name}-${model.model_name}/${now:%Y-%m-%d}_${now:%H-%M-%S}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+      Use --hydra-help to view Hydra specific help
+      '
+    template: '${hydra.help.header}
+      == Configuration groups ==
+      Compose your configuration from those groups (group=option)
+      $APP_CONFIG_GROUPS
+      == Config ==
+      Override anything in the config (foo.bar=value)
+      $CONFIG
+      ${hydra.help.footer}
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+      See https://hydra.cc for more info.
+      == Flags ==
+      $FLAGS_HELP
+      == Configuration groups ==
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+      $HYDRA_CONFIG_GROUPS
+      Use ''--cfg hydra'' to Show the Hydra config.
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][%(name)s][%(levelname)s] - %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+      file:
+        class: logging.FileHandler
+        formatter: simple
+        filename: ${hydra.runtime.output_dir}/${hydra.job.name}.log
+    root:
+      level: INFO
+      handlers:
+      - console
+      - file
+    disable_existing_loggers: false
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - model=gpt2xl_1.5b
+    - task=gsm8k
+  job:
+    name: sft_pretrain_and_pushtohub
+    chdir: null
+    override_dirname: model=gpt2xl_1.5b,task=gsm8k
+    id: ???
+    num: ???
+    config_name: sft_train_and_pushtohub.yaml
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.3.2
+    version_base: '1.3'
+    cwd: /mnt/dlabscratch1/amani/LLM-RL
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /mnt/dlabscratch1/amani/LLM-RL/config
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39
+    choices:
+      dataset_wrapper: default
+      model: gpt2xl_1.5b
+      task: gsm8k
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: default
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false

.hydra/overrides.yaml ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ - model=gpt2xl_1.5b
2	+ - task=gsm8k

README.md ADDED Viewed

	@@ -0,0 +1,58 @@

+---
+base_model: openai-community/gpt2-xl
+library_name: transformers
+model_name: 'gpt2-xl-gsm8k-epoch1-acc0-1. Always '
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for gpt2-xl-gsm8k-epoch1-acc0-1. Always
+This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="masani/2025-04-02_14-52-39", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/epfl-dlab/sft_on_gsm8k/runs/e1n3xkh6)
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.15.2
+- Transformers: 4.49.0
+- Pytorch: 2.5.1
+- Datasets: 3.1.0
+- Tokenizers: 0.21.1
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2-xl",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1600,
+  "n_head": 25,
+  "n_inner": null,
+  "n_layer": 48,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

epoch1/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2-xl",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1600,
+  "n_head": 25,
+  "n_inner": null,
+  "n_layer": 48,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

epoch1/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

epoch1/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch1/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45eaf1bc5dcfd0b4839330d6f467f69caab9ee368654c5c6222c59406e7cd79a
+size 4959881464

epoch1/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0918a2b866bcf0560ffd7519aed3b03d19320f777c8b7792408b6e5d65c5da2b
+size 1270624096

epoch1/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,587 @@

+{
+  "metadata": {
+    "total_size": 6230444800
+  },
+  "weight_map": {
+    "transformer.h.0.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

epoch1/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

epoch1/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch1/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

epoch1/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14f3c6d299bfb369a2106aab54c59a032e03c366e1d1fecdcf02f954b66a25b
+size 5624

epoch1/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:45eaf1bc5dcfd0b4839330d6f467f69caab9ee368654c5c6222c59406e7cd79a
+size 4959881464

model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0918a2b866bcf0560ffd7519aed3b03d19320f777c8b7792408b6e5d65c5da2b
+size 1270624096

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,587 @@

+{
+  "metadata": {
+    "total_size": 6230444800
+  },
+  "weight_map": {
+    "transformer.h.0.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

sft_pretrain_and_pushtohub.log ADDED Viewed

	@@ -0,0 +1,7 @@

+[2025-04-02 14:52:59,306][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -c /tmp/tmpwrka7koq/test.c -o /tmp/tmpwrka7koq/test.o
+[2025-04-02 14:52:59,327][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat /tmp/tmpwrka7koq/test.o -laio -o /tmp/tmpwrka7koq/a.out
+[2025-04-02 14:52:59,802][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -c /tmp/tmpbm8f7_mn/test.c -o /tmp/tmpbm8f7_mn/test.o
+[2025-04-02 14:52:59,820][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat /tmp/tmpbm8f7_mn/test.o -L/usr/local/cuda -L/usr/local/cuda/lib64 -lcufile -o /tmp/tmpbm8f7_mn/a.out
+[2025-04-02 14:52:59,881][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -c /tmp/tmphrk9_0u6/test.c -o /tmp/tmphrk9_0u6/test.o
+[2025-04-02 14:52:59,896][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat /tmp/tmphrk9_0u6/test.o -laio -o /tmp/tmphrk9_0u6/a.out
+[2025-04-02 14:53:00,791][__main__][INFO] - *** Starting SFT training at 2025-04-02 14:53:00 ***

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14f3c6d299bfb369a2106aab54c59a032e03c366e1d1fecdcf02f954b66a25b
+size 5624

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

wandb/debug-internal.log ADDED Viewed

	@@ -0,0 +1,7 @@

+{"time":"2025-04-02T14:52:46.998966444Z","level":"INFO","msg":"stream: starting","core version":"0.19.8","symlink path":"/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39/wandb/run-20250402_145246-e1n3xkh6/logs/debug-core.log"}
+{"time":"2025-04-02T14:52:47.119833744Z","level":"INFO","msg":"created new stream","id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.119882315Z","level":"INFO","msg":"stream: started","id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.119921969Z","level":"INFO","msg":"handler: started","stream_id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.119936867Z","level":"INFO","msg":"writer: Do: started","stream_id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.120603401Z","level":"INFO","msg":"sender: started","stream_id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.425038021Z","level":"INFO","msg":"Starting system monitor"}

wandb/debug.log ADDED Viewed

	@@ -0,0 +1,25 @@

+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Current SDK version is 0.19.8
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Configure stats pid to 738
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Loading settings from /dlabscratch1/amani/.config/wandb/settings
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Loading settings from /mnt/dlabscratch1/amani/LLM-RL/wandb/settings
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Loading settings from environment variables
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:setup_run_log_directory():647] Logging user logs to /mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39/wandb/run-20250402_145246-e1n3xkh6/logs/debug.log
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:setup_run_log_directory():648] Logging internal logs to /mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39/wandb/run-20250402_145246-e1n3xkh6/logs/debug-internal.log
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():761] calling init triggers
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():766] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():784] starting backend
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():788] sending inform_init request
+2025-04-02 14:52:46,987 INFO    MainThread:738 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-04-02 14:52:46,987 INFO    MainThread:738 [wandb_init.py:init():798] backend started and connected
+2025-04-02 14:52:46,989 INFO    MainThread:738 [wandb_init.py:init():891] updated telemetry
+2025-04-02 14:52:47,015 INFO    MainThread:738 [wandb_init.py:init():915] communicating run to backend with 90.0 second timeout
+2025-04-02 14:52:47,419 INFO    MainThread:738 [wandb_init.py:init():990] starting run threads in backend
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_console_start():2375] atexit reg
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_redirect():2227] redirect: wrap_raw
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_redirect():2292] Wrapping output streams.
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_redirect():2315] Redirects installed.
+2025-04-02 14:52:47,737 INFO    MainThread:738 [wandb_init.py:init():1032] run started, returning control to user process
+2025-04-02 14:53:00,970 INFO    MainThread:738 [wandb_run.py:_config_callback():1261] config_cb None None {'vocab_size': 50257, 'n_positions': 1024, 'n_embd': 1600, 'n_layer': 48, 'n_head': 25, 'n_inner': None, 'activation_function': 'gelu_new', 'resid_pdrop': 0.1, 'embd_pdrop': 0.1, 'attn_pdrop': 0.1, 'layer_norm_epsilon': 1e-05, 'initializer_range': 0.02, 'summary_type': 'cls_index', 'summary_use_proj': True, 'summary_activation': None, 'summary_first_dropout': 0.1, 'summary_proj_to_labels': True, 'scale_attn_weights': True, 'use_cache': True, 'scale_attn_by_inverse_layer_idx': False, 'reorder_and_upcast_attn': False, 'bos_token_id': 50256, 'eos_token_id': 50256, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['GPT2LMHeadModel'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'pad_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': {'text-generation': {'do_sample': True, 'max_length': 50}}, 'problem_type': None, '_name_or_path': 'openai-community/gpt2-xl', '_attn_implementation_autoset': True, 'transformers_version': '4.49.0', 'model_type': 'gpt2', 'n_ctx': 1024, 'output_past': True, 'output_dir': '/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39', 'overwrite_output_dir': False, 'do_train': 'true,', 'do_eval': 'true,', 'do_predict': False, 'eval_strategy': 'epoch', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 16, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 1, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 2e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 10, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 10, 'logging_nan_inf_filter': True, 'save_strategy': 'epoch', 'save_steps': 500, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'epoch', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': True, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False, 'model_init_kwargs': None, 'use_liger': False, 'dataset_text_field': 'text', 'dataset_kwargs': None, 'dataset_num_proc': None, 'max_seq_length': 1024, 'packing': False, 'eval_packing': None, 'dataset_batch_size': None, 'num_of_sequences': None, 'chars_per_token': '<CHARS_PER_TOKEN>'}
+2025-04-02 14:53:00,973 INFO    MainThread:738 [wandb_config.py:__setitem__():154] config set model/num_parameters = 1557611200 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x734030d35250>>
+2025-04-02 14:53:00,973 INFO    MainThread:738 [wandb_run.py:_config_callback():1261] config_cb model/num_parameters 1557611200 None

wandb/run-20250402_145246-e1n3xkh6/files/output.log ADDED Viewed

	@@ -0,0 +1,123 @@

+/dlabscratch1/amani/.conda/envs/LLM-RL/lib/python3.11/site-packages/transformers/training_args.py:1594: FutureWarning: `evaluation_strategy` is deprecated and will be removed in version 4.46 of 🤗 Transformers. Use `eval_strategy` instead
+  warnings.warn(
+/mnt/dlabscratch1/amani/LLM-RL/src/sft_pretrain_and_pushtohub.py:138: FutureWarning: `tokenizer` is deprecated and removed starting from version 0.16.0 for `SFTTrainer.__init__`. Use `processing_class` instead.
+  trainer = SFTTrainer(
+[2025-04-02 14:52:58,883] [INFO] [real_accelerator.py:219:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+Warning: The cache directory for DeepSpeed Triton autotune, /dlabscratch1/amani/.triton/autotune, appears to be on an NFS system. While this is generally acceptable, if you experience slowdowns or hanging when DeepSpeed exits, it is recommended to set the TRITON_CACHE_DIR environment variable to a non-NFS path.
+[2025-04-02 14:52:59,306][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -c /tmp/tmpwrka7koq/test.c -o /tmp/tmpwrka7koq/test.o
+[2025-04-02 14:52:59,327][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat /tmp/tmpwrka7koq/test.o -laio -o /tmp/tmpwrka7koq/a.out
+[2025-04-02 14:52:59,802][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -c /tmp/tmpbm8f7_mn/test.c -o /tmp/tmpbm8f7_mn/test.o
+[2025-04-02 14:52:59,820][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat /tmp/tmpbm8f7_mn/test.o -L/usr/local/cuda -L/usr/local/cuda/lib64 -lcufile -o /tmp/tmpbm8f7_mn/a.out
+[2025-04-02 14:52:59,881][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat -DNDEBUG -fwrapv -O2 -Wall -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -O2 -isystem /dlabscratch1/amani/.conda/envs/LLM-RL/include -fPIC -c /tmp/tmphrk9_0u6/test.c -o /tmp/tmphrk9_0u6/test.o
+[2025-04-02 14:52:59,896][root][INFO] - gcc -pthread -B /dlabscratch1/amani/.conda/envs/LLM-RL/compiler_compat /tmp/tmphrk9_0u6/test.o -laio -o /tmp/tmphrk9_0u6/a.out
+2025-04-02 14:53:00,791 - __main__ - INFO - *** Starting SFT training at 2025-04-02 14:53:00 ***
+[2025-04-02 14:53:00,791][__main__][INFO] - *** Starting SFT training at 2025-04-02 14:53:00 ***
+wandb: WARNING The `run_name` is currently set to the same value as `TrainingArguments.output_dir`. If this was not intended, please specify a different run name by setting the `TrainingArguments.run_name` parameter.
+  0%|          | 0/9350 [00:00<?, ?it/s]`loss_type=None` was set in the config but it is unrecognised.Using the default loss: `ForCausalLMLoss`.
+{'loss': 2.8736, 'grad_norm': 4.561432361602783, 'learning_rate': 1.997860962566845e-05, 'mean_token_accuracy': 0.4675643026828766, 'epoch': 0.01}
+{'loss': 1.4077, 'grad_norm': 3.1172070503234863, 'learning_rate': 1.99572192513369e-05, 'mean_token_accuracy': 0.6618991315364837, 'epoch': 0.02}
+{'loss': 1.2961, 'grad_norm': 2.483769655227661, 'learning_rate': 1.993582887700535e-05, 'mean_token_accuracy': 0.6864472806453705, 'epoch': 0.03}
+{'loss': 1.2227, 'grad_norm': 2.7745237350463867, 'learning_rate': 1.9914438502673797e-05, 'mean_token_accuracy': 0.6966653347015381, 'epoch': 0.04}
+{'loss': 1.0693, 'grad_norm': 2.1610703468322754, 'learning_rate': 1.9893048128342248e-05, 'mean_token_accuracy': 0.7266861200332642, 'epoch': 0.05}
+{'loss': 1.1503, 'grad_norm': 2.143181324005127, 'learning_rate': 1.9871657754010695e-05, 'mean_token_accuracy': 0.7105863869190217, 'epoch': 0.06}
+{'loss': 1.065, 'grad_norm': 2.452174425125122, 'learning_rate': 1.9850267379679146e-05, 'mean_token_accuracy': 0.7262609004974365, 'epoch': 0.07}
+{'loss': 1.011, 'grad_norm': 1.8720413446426392, 'learning_rate': 1.9828877005347596e-05, 'mean_token_accuracy': 0.7376364350318909, 'epoch': 0.09}
+{'loss': 0.9914, 'grad_norm': 1.9087146520614624, 'learning_rate': 1.9807486631016044e-05, 'mean_token_accuracy': 0.7410379707813263, 'epoch': 0.1}
+{'loss': 0.9976, 'grad_norm': 2.295886993408203, 'learning_rate': 1.9786096256684494e-05, 'mean_token_accuracy': 0.7375340044498444, 'epoch': 0.11}
+{'loss': 1.0109, 'grad_norm': 2.035055160522461, 'learning_rate': 1.9764705882352945e-05, 'mean_token_accuracy': 0.7421261131763458, 'epoch': 0.12}
+{'loss': 1.0253, 'grad_norm': 2.1886730194091797, 'learning_rate': 1.9743315508021392e-05, 'mean_token_accuracy': 0.7308926224708557, 'epoch': 0.13}
+{'loss': 0.9605, 'grad_norm': 2.1175997257232666, 'learning_rate': 1.972192513368984e-05, 'mean_token_accuracy': 0.7511978864669799, 'epoch': 0.14}
+{'loss': 0.9502, 'grad_norm': 1.9803975820541382, 'learning_rate': 1.970053475935829e-05, 'mean_token_accuracy': 0.7526978373527526, 'epoch': 0.15}
+{'loss': 0.9787, 'grad_norm': 2.274048089981079, 'learning_rate': 1.967914438502674e-05, 'mean_token_accuracy': 0.7469079375267029, 'epoch': 0.16}
+{'loss': 0.9892, 'grad_norm': 2.0520341396331787, 'learning_rate': 1.9657754010695188e-05, 'mean_token_accuracy': 0.7408109784126282, 'epoch': 0.17}
+{'loss': 0.9155, 'grad_norm': 2.1267733573913574, 'learning_rate': 1.963636363636364e-05, 'mean_token_accuracy': 0.764633697271347, 'epoch': 0.18}
+{'loss': 0.9464, 'grad_norm': 2.1772565841674805, 'learning_rate': 1.9614973262032086e-05, 'mean_token_accuracy': 0.75131676197052, 'epoch': 0.19}
+{'loss': 1.0017, 'grad_norm': 2.230823040008545, 'learning_rate': 1.9593582887700536e-05, 'mean_token_accuracy': 0.7450973689556122, 'epoch': 0.2}
+{'loss': 0.9788, 'grad_norm': 1.783121943473816, 'learning_rate': 1.9572192513368987e-05, 'mean_token_accuracy': 0.747833377122879, 'epoch': 0.21}
+{'loss': 0.9839, 'grad_norm': 2.2042770385742188, 'learning_rate': 1.9550802139037434e-05, 'mean_token_accuracy': 0.7454769611358643, 'epoch': 0.22}
+{'loss': 0.9629, 'grad_norm': 1.90845787525177, 'learning_rate': 1.9529411764705885e-05, 'mean_token_accuracy': 0.7495079040527344, 'epoch': 0.24}
+{'loss': 0.9103, 'grad_norm': 1.7904044389724731, 'learning_rate': 1.9508021390374332e-05, 'mean_token_accuracy': 0.7587033331394195, 'epoch': 0.25}
+{'loss': 0.9865, 'grad_norm': 2.190483331680298, 'learning_rate': 1.9486631016042783e-05, 'mean_token_accuracy': 0.7439156830310821, 'epoch': 0.26}
+{'loss': 0.8963, 'grad_norm': 2.020122528076172, 'learning_rate': 1.9465240641711233e-05, 'mean_token_accuracy': 0.7711025416851044, 'epoch': 0.27}
+{'loss': 0.9623, 'grad_norm': 1.914089560508728, 'learning_rate': 1.944385026737968e-05, 'mean_token_accuracy': 0.748535567522049, 'epoch': 0.28}
+{'loss': 0.8793, 'grad_norm': 3.000681161880493, 'learning_rate': 1.9422459893048128e-05, 'mean_token_accuracy': 0.7698011755943298, 'epoch': 0.29}
+{'loss': 0.9989, 'grad_norm': 2.015597105026245, 'learning_rate': 1.9401069518716578e-05, 'mean_token_accuracy': 0.7419908523559571, 'epoch': 0.3}
+{'loss': 0.9115, 'grad_norm': 1.6983799934387207, 'learning_rate': 1.937967914438503e-05, 'mean_token_accuracy': 0.7678780138492585, 'epoch': 0.31}
+{'loss': 0.9361, 'grad_norm': 3.0123836994171143, 'learning_rate': 1.9358288770053476e-05, 'mean_token_accuracy': 0.7575121581554413, 'epoch': 0.32}
+{'loss': 0.9126, 'grad_norm': 2.2199974060058594, 'learning_rate': 1.9336898395721927e-05, 'mean_token_accuracy': 0.763150978088379, 'epoch': 0.33}
+{'loss': 0.9165, 'grad_norm': 1.953675389289856, 'learning_rate': 1.9315508021390377e-05, 'mean_token_accuracy': 0.7600376307964325, 'epoch': 0.34}
+{'loss': 0.9716, 'grad_norm': 2.2523326873779297, 'learning_rate': 1.9294117647058825e-05, 'mean_token_accuracy': 0.7498639464378357, 'epoch': 0.35}
+{'loss': 0.9178, 'grad_norm': 1.7307066917419434, 'learning_rate': 1.9272727272727275e-05, 'mean_token_accuracy': 0.7602478981018066, 'epoch': 0.36}
+{'loss': 0.9156, 'grad_norm': 1.8145519495010376, 'learning_rate': 1.9251336898395722e-05, 'mean_token_accuracy': 0.7568887352943421, 'epoch': 0.37}
+{'loss': 0.8619, 'grad_norm': 1.8205516338348389, 'learning_rate': 1.9229946524064173e-05, 'mean_token_accuracy': 0.7767329752445221, 'epoch': 0.39}
+{'loss': 0.8601, 'grad_norm': 1.7622675895690918, 'learning_rate': 1.9208556149732624e-05, 'mean_token_accuracy': 0.7761210620403289, 'epoch': 0.4}
+{'loss': 0.8928, 'grad_norm': 2.1755974292755127, 'learning_rate': 1.918716577540107e-05, 'mean_token_accuracy': 0.7695048809051513, 'epoch': 0.41}
+{'loss': 0.8501, 'grad_norm': 1.590783953666687, 'learning_rate': 1.9165775401069518e-05, 'mean_token_accuracy': 0.7792985320091248, 'epoch': 0.42}
+{'loss': 0.926, 'grad_norm': 1.8423107862472534, 'learning_rate': 1.9144385026737972e-05, 'mean_token_accuracy': 0.7609580457210541, 'epoch': 0.43}
+{'loss': 0.9162, 'grad_norm': 1.4484622478485107, 'learning_rate': 1.912299465240642e-05, 'mean_token_accuracy': 0.7642469525337219, 'epoch': 0.44}
+{'loss': 0.9032, 'grad_norm': 1.7720240354537964, 'learning_rate': 1.9101604278074867e-05, 'mean_token_accuracy': 0.7663418650627136, 'epoch': 0.45}
+{'loss': 0.8943, 'grad_norm': 1.9300682544708252, 'learning_rate': 1.9080213903743317e-05, 'mean_token_accuracy': 0.7683996140956879, 'epoch': 0.46}
+{'loss': 0.8782, 'grad_norm': 2.139838218688965, 'learning_rate': 1.9058823529411764e-05, 'mean_token_accuracy': 0.7707085013389587, 'epoch': 0.47}
+{'loss': 0.865, 'grad_norm': 1.7625609636306763, 'learning_rate': 1.9037433155080215e-05, 'mean_token_accuracy': 0.7711307823657989, 'epoch': 0.48}
+{'loss': 0.9055, 'grad_norm': 1.9418359994888306, 'learning_rate': 1.9016042780748666e-05, 'mean_token_accuracy': 0.7585177183151245, 'epoch': 0.49}
+{'loss': 0.8507, 'grad_norm': 2.0598695278167725, 'learning_rate': 1.8994652406417113e-05, 'mean_token_accuracy': 0.7708562433719635, 'epoch': 0.5}
+{'loss': 0.8692, 'grad_norm': 1.5901210308074951, 'learning_rate': 1.8973262032085563e-05, 'mean_token_accuracy': 0.7684442400932312, 'epoch': 0.51}
+{'loss': 0.8778, 'grad_norm': 1.8863409757614136, 'learning_rate': 1.8951871657754014e-05, 'mean_token_accuracy': 0.7689958155155182, 'epoch': 0.52}
+{'loss': 0.8592, 'grad_norm': 1.6788251399993896, 'learning_rate': 1.893048128342246e-05, 'mean_token_accuracy': 0.7720810234546661, 'epoch': 0.53}
+{'loss': 0.8527, 'grad_norm': 1.7482951879501343, 'learning_rate': 1.8909090909090912e-05, 'mean_token_accuracy': 0.7757346272468567, 'epoch': 0.55}
+{'loss': 0.8633, 'grad_norm': 1.570914626121521, 'learning_rate': 1.888770053475936e-05, 'mean_token_accuracy': 0.7743308961391449, 'epoch': 0.56}
+{'loss': 0.8701, 'grad_norm': 1.7534855604171753, 'learning_rate': 1.886631016042781e-05, 'mean_token_accuracy': 0.7677632629871368, 'epoch': 0.57}
+{'loss': 0.8179, 'grad_norm': 2.0430619716644287, 'learning_rate': 1.8844919786096257e-05, 'mean_token_accuracy': 0.7785910904407501, 'epoch': 0.58}
+{'loss': 0.8518, 'grad_norm': 1.8052802085876465, 'learning_rate': 1.8823529411764708e-05, 'mean_token_accuracy': 0.7752408146858215, 'epoch': 0.59}
+{'loss': 0.8174, 'grad_norm': 1.7275725603103638, 'learning_rate': 1.8802139037433155e-05, 'mean_token_accuracy': 0.7837619543075561, 'epoch': 0.6}
+{'loss': 0.8424, 'grad_norm': 2.0164926052093506, 'learning_rate': 1.8780748663101605e-05, 'mean_token_accuracy': 0.7713942766189575, 'epoch': 0.61}
+{'loss': 0.7643, 'grad_norm': 1.6844583749771118, 'learning_rate': 1.8759358288770056e-05, 'mean_token_accuracy': 0.7957529544830322, 'epoch': 0.62}
+{'loss': 0.869, 'grad_norm': 1.9102866649627686, 'learning_rate': 1.8737967914438503e-05, 'mean_token_accuracy': 0.7759682476520539, 'epoch': 0.63}
+{'loss': 0.7768, 'grad_norm': 1.379757285118103, 'learning_rate': 1.8716577540106954e-05, 'mean_token_accuracy': 0.7940125286579132, 'epoch': 0.64}
+{'loss': 0.8424, 'grad_norm': 1.7400151491165161, 'learning_rate': 1.8695187165775405e-05, 'mean_token_accuracy': 0.7720341801643371, 'epoch': 0.65}
+{'loss': 0.8636, 'grad_norm': 2.172954559326172, 'learning_rate': 1.8673796791443852e-05, 'mean_token_accuracy': 0.775877845287323, 'epoch': 0.66}
+{'loss': 0.8008, 'grad_norm': 1.9168498516082764, 'learning_rate': 1.8652406417112302e-05, 'mean_token_accuracy': 0.7895217001438141, 'epoch': 0.67}
+{'loss': 0.7755, 'grad_norm': 1.5433951616287231, 'learning_rate': 1.863101604278075e-05, 'mean_token_accuracy': 0.7920072257518769, 'epoch': 0.68}
+{'loss': 0.8503, 'grad_norm': 2.0785927772521973, 'learning_rate': 1.86096256684492e-05, 'mean_token_accuracy': 0.7770399391651154, 'epoch': 0.7}
+{'loss': 0.7462, 'grad_norm': 1.9140806198120117, 'learning_rate': 1.8588235294117647e-05, 'mean_token_accuracy': 0.8053540170192719, 'epoch': 0.71}
+{'loss': 0.7462, 'grad_norm': 1.7646123170852661, 'learning_rate': 1.8566844919786098e-05, 'mean_token_accuracy': 0.7958488464355469, 'epoch': 0.72}
+{'loss': 0.8468, 'grad_norm': 1.6575416326522827, 'learning_rate': 1.8545454545454545e-05, 'mean_token_accuracy': 0.7770686745643616, 'epoch': 0.73}
+{'loss': 0.8494, 'grad_norm': 1.7693356275558472, 'learning_rate': 1.8524064171122996e-05, 'mean_token_accuracy': 0.7740375459194183, 'epoch': 0.74}
+{'loss': 0.7965, 'grad_norm': 1.6074458360671997, 'learning_rate': 1.8502673796791447e-05, 'mean_token_accuracy': 0.7881363987922668, 'epoch': 0.75}
+{'loss': 0.8626, 'grad_norm': 1.7979710102081299, 'learning_rate': 1.8481283422459894e-05, 'mean_token_accuracy': 0.7758695363998414, 'epoch': 0.76}
+{'loss': 0.7883, 'grad_norm': 1.6999515295028687, 'learning_rate': 1.8459893048128344e-05, 'mean_token_accuracy': 0.7871046781539917, 'epoch': 0.77}
+{'loss': 0.8218, 'grad_norm': 1.8012199401855469, 'learning_rate': 1.843850267379679e-05, 'mean_token_accuracy': 0.7894359171390534, 'epoch': 0.78}
+{'loss': 0.8249, 'grad_norm': 1.8291058540344238, 'learning_rate': 1.8417112299465242e-05, 'mean_token_accuracy': 0.7786098062992096, 'epoch': 0.79}
+{'loss': 0.849, 'grad_norm': 1.459100604057312, 'learning_rate': 1.8395721925133693e-05, 'mean_token_accuracy': 0.7739375293254852, 'epoch': 0.8}
+{'loss': 0.8105, 'grad_norm': 1.6709809303283691, 'learning_rate': 1.837433155080214e-05, 'mean_token_accuracy': 0.7830919861793518, 'epoch': 0.81}
+{'loss': 0.8016, 'grad_norm': 1.8294044733047485, 'learning_rate': 1.8352941176470587e-05, 'mean_token_accuracy': 0.7827704012393951, 'epoch': 0.82}
+{'loss': 0.7922, 'grad_norm': 1.9289802312850952, 'learning_rate': 1.833155080213904e-05, 'mean_token_accuracy': 0.7901956796646118, 'epoch': 0.83}
+{'loss': 0.7928, 'grad_norm': 1.6650038957595825, 'learning_rate': 1.831016042780749e-05, 'mean_token_accuracy': 0.7919930636882782, 'epoch': 0.84}
+{'loss': 0.7958, 'grad_norm': 1.7201720476150513, 'learning_rate': 1.8288770053475936e-05, 'mean_token_accuracy': 0.7823857426643371, 'epoch': 0.86}
+{'loss': 0.8059, 'grad_norm': 1.5870884656906128, 'learning_rate': 1.8267379679144386e-05, 'mean_token_accuracy': 0.7836263060569764, 'epoch': 0.87}
+{'loss': 0.75, 'grad_norm': 1.7115275859832764, 'learning_rate': 1.8245989304812837e-05, 'mean_token_accuracy': 0.8022487759590149, 'epoch': 0.88}
+{'loss': 0.8185, 'grad_norm': 2.0211620330810547, 'learning_rate': 1.8224598930481284e-05, 'mean_token_accuracy': 0.7780875384807586, 'epoch': 0.89}
+{'loss': 0.7877, 'grad_norm': 1.6509720087051392, 'learning_rate': 1.8203208556149735e-05, 'mean_token_accuracy': 0.7959480166435242, 'epoch': 0.9}
+{'loss': 0.8499, 'grad_norm': 1.8145709037780762, 'learning_rate': 1.8181818181818182e-05, 'mean_token_accuracy': 0.7782252907752991, 'epoch': 0.91}
+{'loss': 0.7717, 'grad_norm': 1.8439884185791016, 'learning_rate': 1.8160427807486633e-05, 'mean_token_accuracy': 0.7995142638683319, 'epoch': 0.92}
+{'loss': 0.8012, 'grad_norm': 1.5468418598175049, 'learning_rate': 1.8139037433155083e-05, 'mean_token_accuracy': 0.7799870669841766, 'epoch': 0.93}
+{'loss': 0.9315, 'grad_norm': 1.8522837162017822, 'learning_rate': 1.811764705882353e-05, 'mean_token_accuracy': 0.7644379436969757, 'epoch': 0.94}
+{'loss': 0.8311, 'grad_norm': 1.6274827718734741, 'learning_rate': 1.809625668449198e-05, 'mean_token_accuracy': 0.7880046725273132, 'epoch': 0.95}
+{'loss': 0.8642, 'grad_norm': 1.9474292993545532, 'learning_rate': 1.807486631016043e-05, 'mean_token_accuracy': 0.7756262719631195, 'epoch': 0.96}
+{'loss': 0.7447, 'grad_norm': 1.9583537578582764, 'learning_rate': 1.805347593582888e-05, 'mean_token_accuracy': 0.8041338086128235, 'epoch': 0.97}
+{'loss': 0.7824, 'grad_norm': 1.5204691886901855, 'learning_rate': 1.8032085561497326e-05, 'mean_token_accuracy': 0.7936776518821717, 'epoch': 0.98}
+{'loss': 0.8073, 'grad_norm': 1.6397240161895752, 'learning_rate': 1.8010695187165777e-05, 'mean_token_accuracy': 0.7917199492454529, 'epoch': 0.99}
+training_args.bin: 100%|██████████| 5.62k/5.62k [00:00<00:00, 38.0kB/s] ?B/s]
+{'eval_loss': 0.7610637545585632, 'eval_runtime': 97.5543, 'eval_samples_per_second': 13.521, 'eval_steps_per_second': 0.851, 'eval_mean_token_accuracy': 0.7973010553555056, 'epoch': 1.0}
+run-e1n3xkh6.wandb: 100%|██████████| 360k/360k [00:00<00:00, 604kB/s]<07:44, 10.7MB/s]
+model-00002-of-00002.safetensors: 100%|██████████| 1.27G/1.27G [00:36<00:00, 35.2MB/s]
+model-00002-of-00002.safetensors: 100%|██████████| 1.27G/1.27G [00:44<00:00, 28.7MB/s]
+model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [02:15<00:00, 36.5MB/s]
+model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [02:16<00:00, 36.3MB/s]
+Upload 7 LFS files: 100%|██████████| 7/7 [02:17<00:00, 19.59s/it]0:35<01:32, 41.1MB/s]
+model-00001-of-00002.safetensors:  30%|███       | 1.49G/4.96G [00:44<01:24, 40.9MB/s]
+model-00001-of-00002.safetensors:  99%|█████████▉| 4.93G/4.96G [02:15<00:00, 47.1MB/s]
+model-00001-of-00002.safetensors: 100%|█████████▉| 4.96G/4.96G [02:16<00:00, 49.1MB/s]
+Upload 7 LFS files:  14%|█▍        | 1/7 [02:16<13:37, 136.19s/it]
+Upload 7 LFS files:  57%|█████▋    | 4/7 [02:17<01:18, 26.02s/it]

wandb/run-20250402_145246-e1n3xkh6/files/requirements.txt ADDED Viewed

	@@ -0,0 +1,164 @@

+wheel==0.45.1
+pip==25.0.1
+tensorboard-data-server==0.7.2
+six==1.17.0
+setuptools==70.3.0
+packaging==24.2
+MarkupSafe==3.0.2
+Markdown==3.7
+grpcio==1.71.0
+absl-py==2.1.0
+Werkzeug==3.1.3
+tensorboard==2.19.0
+pytz==2025.1
+py-cpuinfo==9.0.0
+nvidia-cusparselt-cu12==0.6.2
+mpmath==1.3.0
+hjson==3.1.0
+xxhash==3.5.0
+urllib3==2.3.0
+tzdata==2025.1
+typing_extensions==4.12.2
+tqdm==4.67.1
+sympy==1.13.1
+safetensors==0.5.3
+regex==2024.11.6
+PyYAML==6.0.2
+python-dateutil==2.9.0.post0
+Pygments==2.19.1
+pyarrow==19.0.1
+psutil==7.0.0
+propcache==0.3.0
+nvidia-nvtx-cu12==12.4.127
+nvidia-nvjitlink-cu12==12.4.127
+nvidia-nccl-cu12==2.21.5
+nvidia-curand-cu12==10.3.5.147
+nvidia-cufft-cu12==11.2.1.3
+nvidia-cuda-runtime-cu12==12.4.127
+nvidia-cuda-nvrtc-cu12==12.4.127
+nvidia-cuda-cupti-cu12==12.4.127
+nvidia-cublas-cu12==12.4.5.8
+ninja==1.11.1.3
+networkx==3.4.2
+multidict==6.1.0
+msgpack==1.1.0
+mdurl==0.1.2
+Jinja2==3.1.6
+idna==3.10
+hf_transfer==0.1.9
+fsspec==2024.9.0
+frozenlist==1.5.0
+filelock==3.18.0
+dill==0.3.8
+charset-normalizer==3.4.1
+certifi==2025.1.31
+attrs==25.3.0
+annotated-types==0.7.0
+aiohappyeyeballs==2.6.1
+yarl==1.18.3
+requests==2.32.3
+pydantic_core==2.27.2
+pandas==2.2.3
+nvidia-cusparse-cu12==12.3.1.170
+nvidia-cudnn-cu12==9.1.0.70
+multiprocess==0.70.16
+markdown-it-py==3.0.0
+aiosignal==1.3.2
+rich==13.9.4
+pydantic==2.10.6
+nvidia-cusolver-cu12==11.6.1.9
+huggingface-hub==0.29.3
+aiohttp==3.11.13
+tokenizers==0.21.1
+deepspeed==0.15.4
+datasets==3.1.0
+accelerate==1.3.0
+trl==0.15.2
+nvidia-ml-py==12.570.86
+smmap==5.0.2
+setproctitle==1.3.5
+sentry-sdk==2.22.0
+protobuf==5.29.3
+platformdirs==4.3.6
+docker-pycreds==0.4.0
+click==8.1.8
+gitdb==4.0.12
+GitPython==3.1.44
+wandb==0.19.8
+sentencepiece==0.2.0
+fastrlock==0.8.3
+blake3==1.0.4
+zipp==3.21.0
+websockets==15.0.1
+uvloop==0.21.0
+triton==3.1.0
+sniffio==1.3.1
+shellingham==1.5.4
+rpds-py==0.23.1
+pyzmq==26.3.0
+python-multipart==0.0.20
+python-dotenv==1.0.1
+pycountry==24.6.1
+pybind11==2.13.6
+prometheus_client==0.21.1
+pluggy==1.5.0
+pillow==11.1.0
+partial-json-parser==0.2.1.1.post5
+numpy==1.26.4
+nest-asyncio==1.6.0
+msgspec==0.19.0
+llvmlite==0.43.0
+lark==1.2.2
+jiter==0.9.0
+interegular==0.3.3
+iniconfig==2.0.0
+httptools==0.6.4
+h11==0.14.0
+einops==0.8.1
+dnspython==2.7.0
+distro==1.9.0
+diskcache==5.6.3
+cloudpickle==3.1.1
+astor==0.8.1
+airportsdata==20250224
+uvicorn==0.34.0
+tiktoken==0.9.0
+referencing==0.36.2
+pytest==8.3.5
+opencv-python-headless==4.11.0.86
+numba==0.60.0
+importlib_metadata==8.6.1
+httpcore==1.0.7
+gguf==0.10.0
+email_validator==2.2.0
+depyf==0.18.0
+cupy-cuda12x==13.4.0
+anyio==4.8.0
+watchfiles==1.0.4
+typer==0.15.2
+torch==2.5.1
+starlette==0.46.1
+rich-toolkit==0.13.2
+lm-format-enforcer==0.10.11
+jsonschema-specifications==2024.10.1
+httpx==0.28.1
+xformers==0.0.28.post3
+transformers==4.49.0
+torchvision==0.20.1
+torchaudio==2.5.1
+prometheus-fastapi-instrumentator==7.0.2
+openai==1.66.3
+jsonschema==4.23.0
+fastapi==0.115.11
+xgrammar==0.1.11
+ray==2.40.0
+outlines_core==0.1.26
+mistral_common==1.5.3
+fastapi-cli==0.0.7
+compressed-tensors==0.9.1
+outlines==0.1.11
+vllm==0.7.3
+antlr4-python3-runtime==4.9.3
+omegaconf==2.3.0
+hydra-core==1.3.2
+rootutils==1.0.7

wandb/run-20250402_145246-e1n3xkh6/files/wandb-metadata.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "os": "Linux-6.5.0-45-generic-x86_64-with-glibc2.35",
+  "python": "CPython 3.11.11",
+  "startedAt": "2025-04-02T14:52:46.988352Z",
+  "args": [
+    "model=gpt2xl_1.5b",
+    "task=gsm8k"
+  ],
+  "program": "/mnt/dlabscratch1/amani/LLM-RL/src/sft_pretrain_and_pushtohub.py",
+  "codePath": "src/sft_pretrain_and_pushtohub.py",
+  "git": {
+    "remote": "https://github.com/aryol/LLM-RL.git",
+    "commit": "af916ff96a9a9f7ba10303eca8d36be0bbd89fc8"
+  },
+  "email": "[email protected]",
+  "root": "/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39",
+  "host": "job-60b06e05eaef-0-0",
+  "executable": "/dlabscratch1/amani/.conda/envs/LLM-RL/bin/python",
+  "codePathLocal": "src/sft_pretrain_and_pushtohub.py",
+  "cpu_count": 64,
+  "cpu_count_logical": 128,
+  "gpu": "NVIDIA A100-SXM4-80GB",
+  "gpu_count": 1,
+  "disk": {
+    "/": {
+      "total": "7679362727936",
+      "used": "4235631878144"
+    }
+  },
+  "memory": {
+    "total": "1081887248384"
+  },
+  "cpu": {
+    "count": 64,
+    "countLogical": 128
+  },
+  "gpu_nvidia": [
+    {
+      "name": "NVIDIA A100-SXM4-80GB",
+      "memoryTotal": "85899345920",
+      "cudaCores": 6912,
+      "architecture": "Ampere"
+    }
+  ],
+  "cudaVersion": "12.4"
+}

wandb/run-20250402_145246-e1n3xkh6/logs/debug-core.log ADDED Viewed

	@@ -0,0 +1,6 @@

+{"time":"2025-04-02T14:52:46.462612938Z","level":"INFO","msg":"main: starting server","port-filename":"/tmp/tmpw6oemm4w/port-738.txt","pid":738,"log-level":0,"disable-analytics":false,"shutdown-on-parent-exit":false}
+{"time":"2025-04-02T14:52:46.466433118Z","level":"INFO","msg":"Will exit if parent process dies.","ppid":738}
+{"time":"2025-04-02T14:52:46.466813128Z","level":"INFO","msg":"server is running","addr":{"IP":"127.0.0.1","Port":38271,"Zone":""}}
+{"time":"2025-04-02T14:52:46.55291915Z","level":"INFO","msg":"connection: ManageConnectionData: new connection created","id":"127.0.0.1:57336"}
+{"time":"2025-04-02T14:52:46.99572319Z","level":"INFO","msg":"handleInformInit: received","streamId":"e1n3xkh6","id":"127.0.0.1:57336"}
+{"time":"2025-04-02T14:52:47.119891001Z","level":"INFO","msg":"handleInformInit: stream started","streamId":"e1n3xkh6","id":"127.0.0.1:57336"}

wandb/run-20250402_145246-e1n3xkh6/logs/debug-internal.log ADDED Viewed

	@@ -0,0 +1,7 @@

+{"time":"2025-04-02T14:52:46.998966444Z","level":"INFO","msg":"stream: starting","core version":"0.19.8","symlink path":"/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39/wandb/run-20250402_145246-e1n3xkh6/logs/debug-core.log"}
+{"time":"2025-04-02T14:52:47.119833744Z","level":"INFO","msg":"created new stream","id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.119882315Z","level":"INFO","msg":"stream: started","id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.119921969Z","level":"INFO","msg":"handler: started","stream_id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.119936867Z","level":"INFO","msg":"writer: Do: started","stream_id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.120603401Z","level":"INFO","msg":"sender: started","stream_id":"e1n3xkh6"}
+{"time":"2025-04-02T14:52:47.425038021Z","level":"INFO","msg":"Starting system monitor"}

wandb/run-20250402_145246-e1n3xkh6/logs/debug.log ADDED Viewed

	@@ -0,0 +1,25 @@

+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Current SDK version is 0.19.8
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Configure stats pid to 738
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Loading settings from /dlabscratch1/amani/.config/wandb/settings
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Loading settings from /mnt/dlabscratch1/amani/LLM-RL/wandb/settings
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_setup.py:_flush():67] Loading settings from environment variables
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:setup_run_log_directory():647] Logging user logs to /mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39/wandb/run-20250402_145246-e1n3xkh6/logs/debug.log
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:setup_run_log_directory():648] Logging internal logs to /mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39/wandb/run-20250402_145246-e1n3xkh6/logs/debug-internal.log
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():761] calling init triggers
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():766] wandb.init called with sweep_config: {}
+config: {'_wandb': {}}
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():784] starting backend
+2025-04-02 14:52:46,977 INFO    MainThread:738 [wandb_init.py:init():788] sending inform_init request
+2025-04-02 14:52:46,987 INFO    MainThread:738 [backend.py:_multiprocessing_setup():101] multiprocessing start_methods=fork,spawn,forkserver, using: spawn
+2025-04-02 14:52:46,987 INFO    MainThread:738 [wandb_init.py:init():798] backend started and connected
+2025-04-02 14:52:46,989 INFO    MainThread:738 [wandb_init.py:init():891] updated telemetry
+2025-04-02 14:52:47,015 INFO    MainThread:738 [wandb_init.py:init():915] communicating run to backend with 90.0 second timeout
+2025-04-02 14:52:47,419 INFO    MainThread:738 [wandb_init.py:init():990] starting run threads in backend
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_console_start():2375] atexit reg
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_redirect():2227] redirect: wrap_raw
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_redirect():2292] Wrapping output streams.
+2025-04-02 14:52:47,731 INFO    MainThread:738 [wandb_run.py:_redirect():2315] Redirects installed.
+2025-04-02 14:52:47,737 INFO    MainThread:738 [wandb_init.py:init():1032] run started, returning control to user process
+2025-04-02 14:53:00,970 INFO    MainThread:738 [wandb_run.py:_config_callback():1261] config_cb None None {'vocab_size': 50257, 'n_positions': 1024, 'n_embd': 1600, 'n_layer': 48, 'n_head': 25, 'n_inner': None, 'activation_function': 'gelu_new', 'resid_pdrop': 0.1, 'embd_pdrop': 0.1, 'attn_pdrop': 0.1, 'layer_norm_epsilon': 1e-05, 'initializer_range': 0.02, 'summary_type': 'cls_index', 'summary_use_proj': True, 'summary_activation': None, 'summary_first_dropout': 0.1, 'summary_proj_to_labels': True, 'scale_attn_weights': True, 'use_cache': True, 'scale_attn_by_inverse_layer_idx': False, 'reorder_and_upcast_attn': False, 'bos_token_id': 50256, 'eos_token_id': 50256, 'return_dict': True, 'output_hidden_states': False, 'output_attentions': False, 'torchscript': False, 'torch_dtype': 'float32', 'use_bfloat16': False, 'tf_legacy_loss': False, 'pruned_heads': {}, 'tie_word_embeddings': True, 'chunk_size_feed_forward': 0, 'is_encoder_decoder': False, 'is_decoder': False, 'cross_attention_hidden_size': None, 'add_cross_attention': False, 'tie_encoder_decoder': False, 'max_length': 20, 'min_length': 0, 'do_sample': False, 'early_stopping': False, 'num_beams': 1, 'num_beam_groups': 1, 'diversity_penalty': 0.0, 'temperature': 1.0, 'top_k': 50, 'top_p': 1.0, 'typical_p': 1.0, 'repetition_penalty': 1.0, 'length_penalty': 1.0, 'no_repeat_ngram_size': 0, 'encoder_no_repeat_ngram_size': 0, 'bad_words_ids': None, 'num_return_sequences': 1, 'output_scores': False, 'return_dict_in_generate': False, 'forced_bos_token_id': None, 'forced_eos_token_id': None, 'remove_invalid_values': False, 'exponential_decay_length_penalty': None, 'suppress_tokens': None, 'begin_suppress_tokens': None, 'architectures': ['GPT2LMHeadModel'], 'finetuning_task': None, 'id2label': {0: 'LABEL_0', 1: 'LABEL_1'}, 'label2id': {'LABEL_0': 0, 'LABEL_1': 1}, 'tokenizer_class': None, 'prefix': None, 'pad_token_id': None, 'sep_token_id': None, 'decoder_start_token_id': None, 'task_specific_params': {'text-generation': {'do_sample': True, 'max_length': 50}}, 'problem_type': None, '_name_or_path': 'openai-community/gpt2-xl', '_attn_implementation_autoset': True, 'transformers_version': '4.49.0', 'model_type': 'gpt2', 'n_ctx': 1024, 'output_past': True, 'output_dir': '/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39', 'overwrite_output_dir': False, 'do_train': 'true,', 'do_eval': 'true,', 'do_predict': False, 'eval_strategy': 'epoch', 'prediction_loss_only': False, 'per_device_train_batch_size': 8, 'per_device_eval_batch_size': 16, 'per_gpu_train_batch_size': None, 'per_gpu_eval_batch_size': None, 'gradient_accumulation_steps': 1, 'eval_accumulation_steps': None, 'eval_delay': 0, 'torch_empty_cache_steps': None, 'learning_rate': 2e-05, 'weight_decay': 0.0, 'adam_beta1': 0.9, 'adam_beta2': 0.999, 'adam_epsilon': 1e-08, 'max_grad_norm': 1.0, 'num_train_epochs': 10, 'max_steps': -1, 'lr_scheduler_type': 'linear', 'lr_scheduler_kwargs': {}, 'warmup_ratio': 0.0, 'warmup_steps': 0, 'log_level': 'passive', 'log_level_replica': 'warning', 'log_on_each_node': True, 'logging_dir': '/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39', 'logging_strategy': 'steps', 'logging_first_step': False, 'logging_steps': 10, 'logging_nan_inf_filter': True, 'save_strategy': 'epoch', 'save_steps': 500, 'save_total_limit': None, 'save_safetensors': True, 'save_on_each_node': False, 'save_only_model': False, 'restore_callback_states_from_checkpoint': False, 'no_cuda': False, 'use_cpu': False, 'use_mps_device': False, 'seed': 42, 'data_seed': None, 'jit_mode_eval': False, 'use_ipex': False, 'bf16': False, 'fp16': False, 'fp16_opt_level': 'O1', 'half_precision_backend': 'auto', 'bf16_full_eval': False, 'fp16_full_eval': False, 'tf32': None, 'local_rank': 0, 'ddp_backend': None, 'tpu_num_cores': None, 'tpu_metrics_debug': False, 'debug': [], 'dataloader_drop_last': False, 'eval_steps': None, 'dataloader_num_workers': 0, 'dataloader_prefetch_factor': None, 'past_index': -1, 'run_name': '/mnt/dlabscratch1/amani/LLM-RL/logs/sft_pretrain_and_pushtohub/gsm8k-gpt2-xl/2025-04-02_14-52-39', 'disable_tqdm': False, 'remove_unused_columns': True, 'label_names': None, 'load_best_model_at_end': False, 'metric_for_best_model': None, 'greater_is_better': None, 'ignore_data_skip': False, 'fsdp': [], 'fsdp_min_num_params': 0, 'fsdp_config': {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, 'fsdp_transformer_layer_cls_to_wrap': None, 'accelerator_config': {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}, 'deepspeed': None, 'label_smoothing_factor': 0.0, 'optim': 'adamw_torch', 'optim_args': None, 'adafactor': False, 'group_by_length': False, 'length_column_name': 'length', 'report_to': ['wandb'], 'ddp_find_unused_parameters': None, 'ddp_bucket_cap_mb': None, 'ddp_broadcast_buffers': None, 'dataloader_pin_memory': True, 'dataloader_persistent_workers': False, 'skip_memory_metrics': True, 'use_legacy_prediction_loop': False, 'push_to_hub': False, 'resume_from_checkpoint': None, 'hub_model_id': None, 'hub_strategy': 'every_save', 'hub_token': '<HUB_TOKEN>', 'hub_private_repo': None, 'hub_always_push': False, 'gradient_checkpointing': False, 'gradient_checkpointing_kwargs': None, 'include_inputs_for_metrics': False, 'include_for_metrics': [], 'eval_do_concat_batches': True, 'fp16_backend': 'auto', 'evaluation_strategy': 'epoch', 'push_to_hub_model_id': None, 'push_to_hub_organization': None, 'push_to_hub_token': '<PUSH_TO_HUB_TOKEN>', 'mp_parameters': '', 'auto_find_batch_size': False, 'full_determinism': False, 'torchdynamo': None, 'ray_scope': 'last', 'ddp_timeout': 1800, 'torch_compile': False, 'torch_compile_backend': None, 'torch_compile_mode': None, 'dispatch_batches': None, 'split_batches': None, 'include_tokens_per_second': False, 'include_num_input_tokens_seen': False, 'neftune_noise_alpha': None, 'optim_target_modules': None, 'batch_eval_metrics': True, 'eval_on_start': False, 'use_liger_kernel': False, 'eval_use_gather_object': False, 'average_tokens_across_devices': False, 'model_init_kwargs': None, 'use_liger': False, 'dataset_text_field': 'text', 'dataset_kwargs': None, 'dataset_num_proc': None, 'max_seq_length': 1024, 'packing': False, 'eval_packing': None, 'dataset_batch_size': None, 'num_of_sequences': None, 'chars_per_token': '<CHARS_PER_TOKEN>'}
+2025-04-02 14:53:00,973 INFO    MainThread:738 [wandb_config.py:__setitem__():154] config set model/num_parameters = 1557611200 - <bound method Run._config_callback of <wandb.sdk.wandb_run.Run object at 0x734030d35250>>
+2025-04-02 14:53:00,973 INFO    MainThread:738 [wandb_run.py:_config_callback():1261] config_cb model/num_parameters 1557611200 None

wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:868d387659ad2157b3ef2be17b045544e2cc5ec08c48443a8f782234db3a58e7
+size 360448