Model save

Browse files

Files changed (8) hide show

README.md +40 -38
last_checkpoint/config.json +7 -1
last_checkpoint/model-00001-of-00003.safetensors +3 -0
last_checkpoint/model-00002-of-00003.safetensors +3 -0
last_checkpoint/model-00003-of-00003.safetensors +3 -0
last_checkpoint/model.safetensors.index.json +328 -328
last_checkpoint/tokenizer.json +2 -2
last_checkpoint/training_args.bin +2 -2

README.md CHANGED Viewed

@@ -1,57 +1,59 @@
 ---
-base_model: mistralai/Ministral-8B-Instruct-2410
 library_name: transformers
-model_name: reflect_Mini8B_nonGenCritic_Mini8bT0GtT1MstllrgT2_SftT2
 tags:
 - generated_from_trainer
-- trl
-- sft
-licence: license
 ---
-# Model Card for reflect_Mini8B_nonGenCritic_Mini8bT0GtT1MstllrgT2_SftT2
-This model is a fine-tuned version of [mistralai/Ministral-8B-Instruct-2410](https://huggingface.co/mistralai/Ministral-8B-Instruct-2410).
-It has been trained using [TRL](https://github.com/huggingface/trl).
-## Quick start
-```python
-from transformers import pipeline
-question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
-generator = pipeline("text-generation", model="RyanYr/reflect_Mini8B_nonGenCritic_Mini8bT0GtT1MstllrgT2_SftT2", device="cuda")
-output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
-print(output["generated_text"])
-```
-## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yyr/huggingface/runs/ji41zrv7)
-This model was trained with SFT.
-### Framework versions
-- TRL: 0.12.0.dev0
-- Transformers: 4.45.2
-- Pytorch: 2.5.1
-- Datasets: 3.1.0
-- Tokenizers: 0.20.3
-## Citations
-Cite TRL as:
-```bibtex
-@misc{vonwerra2022trl,
-	title        = {{TRL: Transformer Reinforcement Learning}},
-	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
-	year         = 2020,
-	journal      = {GitHub repository},
-	publisher    = {GitHub},
-	howpublished = {\url{https://github.com/huggingface/trl}}
-}
-```

 ---
 library_name: transformers
+license: other
+base_model: mistralai/Ministral-8B-Instruct-2410
 tags:
 - generated_from_trainer
+model-index:
+- name: reflectNonGenCrtc_om2_Mini8bT0MstrllrgT12-460k_OrmCritic
+  results: []
 ---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# reflectNonGenCrtc_om2_Mini8bT0MstrllrgT12-460k_OrmCritic
+This model is a fine-tuned version of [mistralai/Ministral-8B-Instruct-2410](https://huggingface.co/mistralai/Ministral-8B-Instruct-2410) on an unknown dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-06
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 4
+- gradient_accumulation_steps: 64
+- total_train_batch_size: 256
+- total_eval_batch_size: 4
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.03
+- num_epochs: 1
+### Training results
+### Framework versions
+- Transformers 4.45.2
+- Pytorch 2.5.1+cu124
+- Datasets 3.1.0
+- Tokenizers 0.20.3

last_checkpoint/config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "_name_or_path": "mistralai/Ministral-8B-Instruct-2410",
   "architectures": [
-    "MistralForCausalLM"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 1,
@@ -9,8 +9,14 @@
   "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 4096,
   "initializer_range": 0.02,
   "intermediate_size": 12288,
   "max_position_embeddings": 32768,
   "model_type": "mistral",
   "num_attention_heads": 32,

 {
   "_name_or_path": "mistralai/Ministral-8B-Instruct-2410",
   "architectures": [
+    "MistralForSequenceClassification"
   ],
   "attention_dropout": 0.0,
   "bos_token_id": 1,
   "head_dim": 128,
   "hidden_act": "silu",
   "hidden_size": 4096,
+  "id2label": {
+    "0": "LABEL_0"
+  },
   "initializer_range": 0.02,
   "intermediate_size": 12288,
+  "label2id": {
+    "LABEL_0": 0
+  },
   "max_position_embeddings": 32768,
   "model_type": "mistral",
   "num_attention_heads": 32,

last_checkpoint/model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f19272dbec1279b0798875cabd7b2180c7d52b9b8f413572137cd52964fa3219
+size 4983016096

last_checkpoint/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e017ab1d542f241ef23a9ee3111db5816089ad7a01495bb51360532615644bce
+size 4999836776

last_checkpoint/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e526e84b82f4c78a6d028a8a3182d63c0051080cb0698fd6111a3b21ca046268
+size 4983076240

last_checkpoint/model.safetensors.index.json CHANGED Viewed

@@ -1,334 +1,334 @@
 {
   "metadata": {
-    "total_size": 16039632896
   },
   "weight_map": {
-    "lm_head.weight": "model-00004-of-00004.safetensors",
-    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.input_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
-    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.input_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
-    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.input_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
-    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
-    "model.norm.weight": "model-00003-of-00004.safetensors"
   }
 }

 {
   "metadata": {
+    "total_size": 14965891072
   },
   "weight_map": {
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors",
+    "score.weight": "model-00003-of-00003.safetensors"
   }
 }

last_checkpoint/tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14fc76e7d62f937dce5abc546fc76d251f007317817d2360e5c5dbdb90bbd87b
-size 17078417

 version https://git-lfs.github.com/spec/v1
+oid sha256:3537f74c84bc8e8cbb95a43947b1bdc89bb143d548bdd2a28ac2c3bbf51971ed
+size 17078318

last_checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e7f7158c8fa4aad62f0189eb37e1b5cc3e2443924cd2b7060724ae70df91de97
-size 6968

 version https://git-lfs.github.com/spec/v1
+oid sha256:305c8b4e807beae1d78324c247ff8f0166d36d14040d1393a3b0c6b2d8595e97
+size 6712