CalamitousFelicitousness commited on Sep 15

Commit

1b52460

•

1 Parent(s): 6ceb605

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

README.md +305 -0
config.json +29 -0
generation_config.json +7 -0
model-00001-of-00015.safetensors +3 -0
model-00002-of-00015.safetensors +3 -0
model-00003-of-00015.safetensors +3 -0
model-00004-of-00015.safetensors +3 -0
model-00005-of-00015.safetensors +3 -0
model-00006-of-00015.safetensors +3 -0
model-00007-of-00015.safetensors +3 -0
model-00008-of-00015.safetensors +3 -0
model-00009-of-00015.safetensors +3 -0
model-00010-of-00015.safetensors +3 -0
model-00011-of-00015.safetensors +3 -0
model-00012-of-00015.safetensors +3 -0
model-00013-of-00015.safetensors +3 -0
model-00014-of-00015.safetensors +3 -0
model-00015-of-00015.safetensors +3 -0
model.safetensors.index.json +550 -0
special_tokens_map.json +30 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +53 -0

README.md ADDED Viewed

	@@ -0,0 +1,305 @@

+---
+License: apache-2.0
+Language:
+- En
+Pipeline_tag: text-generation
+Base_model: 01-ai/Yi-1.5-34B-32K
+Tags:
+- Chat
+model-index:
+- name: magnum-v3-34b
+  results:
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: IFEval (0-Shot)
+      type: HuggingFaceH4/ifeval
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: inst_level_strict_acc and prompt_level_strict_acc
+      value: 51.15
+      name: strict accuracy
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v3-34b
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: BBH (3-Shot)
+      type: BBH
+      args:
+        num_few_shot: 3
+    metrics:
+    - type: acc_norm
+      value: 44.33
+      name: normalized accuracy
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v3-34b
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MATH Lvl 5 (4-Shot)
+      type: hendrycks/competition_math
+      args:
+        num_few_shot: 4
+    metrics:
+    - type: exact_match
+      value: 17.82
+      name: exact match
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v3-34b
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: GPQA (0-shot)
+      type: Idavidrein/gpqa
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: acc_norm
+      value: 14.77
+      name: acc_norm
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v3-34b
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MuSR (0-shot)
+      type: TAUR-Lab/MuSR
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: acc_norm
+      value: 6.57
+      name: acc_norm
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v3-34b
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MMLU-PRO (5-shot)
+      type: TIGER-Lab/MMLU-Pro
+      config: main
+      split: test
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 41.69
+      name: accuracy
+    source:
+      url: https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard?query=anthracite-org/magnum-v3-34b
+      name: Open LLM Leaderboard
+---
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/658a46cbfb9c2bdfae75b3a6/9yEmnTDG9bcC_bxwuDU6G.png)
+This is the 9th in a series of models designed to replicate the prose quality of the Claude 3 models, specifically Sonnet and Opus.
+This model is fine-tuned on top of [Yi-1.5-34 B-32 K](https://huggingface.co/01-ai/Yi-1.5-34B-32K).
+## Prompting
+Model has been Instruct tuned with the ChatML formatting. A typical input would look like this:
+```py
+"""<|im_start|>system
+system prompt<|im_end|>
+<|im_start|>user
+Hi there!<|im_end|>
+<|im_start|>assistant
+Nice to meet you!<|im_end|>
+<|im_start|>user
+Can I ask a question?<|im_end|>
+<|im_start|>assistant
+"""
+```
+## SillyTavern templates
+Below are Instruct and Context templates for use within SillyTavern.
+In our testing a min_p of 0.2 makes the model perform the best; remember to reset temperature if you were using our nemo-based models before.
+<details><summary>context template</summary>
+```yaml
+{
+    "story_string": "<|im_start|>system\n{{#if system}}{{system}}\n{{/if}}{{#if wiBefore}}{{wiBefore}}\n{{/if}}{{#if description}}{{description}}\n{{/if}}{{#if personality}}{{char}}'s personality: {{personality}}\n{{/if}}{{#if scenario}}Scenario: {{scenario}}\n{{/if}}{{#if wiAfter}}{{wiAfter}}\n{{/if}}{{#if persona}}{{persona}}\n{{/if}}{{trim}}<|im_end|>\n",
+    "example_separator": "",
+    "chat_start": "",
+    "use_stop_strings": false,
+    "allow_jailbreak": false,
+    "always_force_name2": true,
+    "trim_sentences": false,
+    "include_newline": false,
+    "single_line": false,
+    "name": "Magnum ChatML"
+}
+```
+</details><br>
+<details><summary>instruct template</summary>
+```yaml
+{
+    "system_prompt": "You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}.",
+    "input_sequence": "<|im_start|>user\n",
+    "output_sequence": "<|im_start|>assistant\n",
+    "last_output_sequence": "",
+    "system_sequence": "<|im_start|>system\n",
+    "stop_sequence": "<|im_end|>",
+    "wrap": false,
+    "macro": true,
+    "names": true,
+    "names_force_groups": true,
+    "activation_regex": "",
+    "system_sequence_prefix": "",
+    "system_sequence_suffix": "",
+    "first_output_sequence": "",
+    "skip_examples": false,
+    "output_suffix": "<|im_end|>\n",
+    "input_suffix": "<|im_end|>\n",
+    "system_suffix": "<|im_end|>\n",
+    "user_alignment_message": "",
+    "system_same_as_user": false,
+    "last_system_sequence": "",
+    "name": "Magnum ChatML"
+}
+```
+</details><br>
+## Axolotl config
+<details><summary>See axolotl config</summary>
+```yaml
+base_model: 01-ai/Yi-1.5-34B-32K
+model_type: AutoModelForCausalLM
+tokenizer_type: AutoTokenizer
+#trust_remote_code: true
+load_in_8bit: false
+load_in_4bit: false
+strict: false
+datasets:
+  - path: anthracite-org/stheno-filtered-v1.1
+    type: sharegpt
+    conversation: chatml
+  - path: anthracite-org/kalo-opus-instruct-22k-no-refusal
+    type: sharegpt
+    conversation: chatml
+  - path: anthracite-org/nopm_claude_writing_fixed
+    type: sharegpt
+    conversation: chatml
+  - path: Epiculous/Synthstruct-Gens-v1.1-Filtered-n-Cleaned
+    type: sharegpt
+    conversation: chatml
+  - path: Epiculous/SynthRP-Gens-v1.1-Filtered-n-Cleaned
+    type: sharegpt
+    conversation: chatml
+chat_template: chatml
+shuffle_merged_datasets: true
+default_system_message: "You are an assistant that responds to the user."
+dataset_prepared_path: magnum-v2-34b-1.5-data
+val_set_size: 0.0
+output_dir: ./magnum-v2-34b-32k-r1
+sequence_len: 8192
+sample_packing: true
+eval_sample_packing: false
+pad_to_sequence_len:
+adapter:
+lora_model_dir:
+lora_r:
+lora_alpha:
+lora_dropout:
+lora_target_linear:
+lora_fan_in_fan_out:
+wandb_project: magnum-v2-34b-1.5-32k
+wandb_entity:
+wandb_watch:
+wandb_name: attempt-01
+wandb_log_model:
+gradient_accumulation_steps: 8
+micro_batch_size: 1
+num_epochs: 2
+optimizer: paged_adamw_8bit
+lr_scheduler: cosine
+learning_rate: 0.000006
+train_on_inputs: false
+group_by_length: false
+bf16: auto
+fp16:
+tf32: false
+gradient_checkpointing: unsloth
+early_stopping_patience:
+resume_from_checkpoint:
+local_rank:
+logging_steps: 1
+xformers_attention:
+flash_attention: true
+warmup_steps: 50
+evals_per_epoch:
+eval_table_size:
+eval_max_new_tokens:
+saves_per_epoch: 2
+debug:
+deepspeed: deepspeed_configs/zero3_bf16.json
+weight_decay: 0.05
+fsdp:
+fsdp_config:
+special_tokens:
+```
+</details><br>
+## Credits
+We'd like to thank Recursal / Featherless for sponsoring the compute for this train, Featherless has been hosting our Magnum models since the first 72 B and has given thousands of people access to our models and helped us grow.
+We would also like to thank all members of Anthracite who made this finetune possible.
+- [anthracite-org/stheno-filtered-v1.1](https://huggingface.co/datasets/anthracite-org/stheno-filtered-v1.1)
+- [anthracite-org/kalo-opus-instruct-22k-no-refusal](https://huggingface.co/datasets/anthracite-org/kalo-opus-instruct-22k-no-refusal)
+- [lodrick-the-lafted/NopmWritingStruct](https://huggingface.co/datasets/lodrick-the-lafted/NopmWritingStruct)
+- [Epiculous/Synthstruct-Gens-v1.1-Filtered-n-Cleaned](https://huggingface.co/datasets/Epiculous/Synthstruct-Gens-v1.1-Filtered-n-Cleaned)
+- [Epiculous/SynthRP-Gens-v1.1-Filtered-n-Cleaned](https://huggingface.co/datasets/Epiculous/SynthRP-Gens-v1.1-Filtered-n-Cleaned)
+## Training
+The training was done for 2 epochs. We used  8x[H100s](https://www.nvidia.com/en-us/data-center/h100/) GPUs graciously provided by [Recursal AI](https://recursal.ai/) / [Featherless AI](https://featherless.ai/) for the full-parameter fine-tuning of the model.
+[<img src="https://raw.githubusercontent.com/OpenAccess-AI-Collective/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/OpenAccess-AI-Collective/axolotl)
+## Safety
+...
+# [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard)
+Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_anthracite-org__magnum-v3-34b)
+|      Metric       |Value|
+|-------------------|----:|
+|Avg.               |29.39|
+|IFEval (0-Shot)    |51.15|
+|BBH (3-Shot)       |44.33|
+|MATH Lvl 5 (4-Shot)|17.82|
+|GPQA (0-shot)      |14.77|
+|MuSR (0-shot)      | 6.57|
+|MMLU-PRO (5-shot)  |41.69|

config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "01-ai/Yi-1.5-34B-32K",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 7168,
+  "initializer_range": 0.02,
+  "intermediate_size": 20480,
+  "max_position_embeddings": 32768,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 56,
+  "num_hidden_layers": 60,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 5000000,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.44.0",
+  "use_cache": false,
+  "vocab_size": 64000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "pad_token_id": 0,
+  "transformers_version": "4.40.0"
+}

model-00001-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6af7fe8271f3ab8849d775ba3677c13a79bf8192a48f0f67ebacd385a66385f4
+size 4793130760

model-00002-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a27f29c310f1290dd6e5ffa98be60f479f6bb670feda83229f624759d50c029
+size 4756459720

model-00003-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:681e3532849c72d8689ae49dbcda30b540b9a46d111e1b8b8820459c8cd39f75
+size 4991370136

model-00004-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5fe36b2433dd59f24ab8cef872ba911324b51fb5b4d6fcca85622afb8a8ad47
+size 4756459760

model-00005-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:48de292180d741da7dd64828f833581257caed0b1f51a5bcfb69156284a2d734
+size 4756459760

model-00006-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12d034417673ecd5aae4c011d25afa353752b73490c8215b4372423b20476abb
+size 4991370160

model-00007-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b986799267004bb0db32eb72acac5c430073e52458f936f4cde07c11f0e71b74
+size 4756459760

model-00008-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f5d3313719bd03f1a062f06f96042c5c81bbfe55910018251dc705ff8dfcfac
+size 4756459760

model-00009-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3b0babc7aeda5cb3fa45802b6865126e95e3ac0a28ffd57d6b220a45cc50c5fb
+size 4991370160

model-00010-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00388558e27f3fc102bdfe1b25b6cfa77221e07d651f8671f28bc3641d8e03e6
+size 4756459760

model-00011-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7661aca46385aae19baee395ff3c010ecb1e9eaa09d64e9d84d225c0c3008931
+size 4756459760

model-00012-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1ab9d4198bda90459c4bf5332e5284cd9e0c26463107c92b9aba3f65dd9396e
+size 4991370160

model-00013-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:636908ffb01687008581e6736708a0cbc5834be4d1c73b3806231345e1d20785
+size 4756459760

model-00014-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8c56af476e045aa5dcc0ceb26d8036658de56a156320ec3b8b1c0650dc50889
+size 4756459760

model-00015-of-00015.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:30e4373ba581b9ab587448b655801a7de6143ae85303cb2f0acb71568bc2d72b
+size 1211148856

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,550 @@

+{
+  "metadata": {
+    "total_size": 68777834496
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00015-of-00015.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00004-of-00015.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00005-of-00015.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00006-of-00015.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00007-of-00015.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00015.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.input_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.mlp.down_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.mlp.gate_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.mlp.up_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.post_attention_layernorm.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.self_attn.k_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.self_attn.o_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.self_attn.q_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.32.self_attn.v_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.33.input_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.33.mlp.down_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.33.mlp.gate_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.33.mlp.up_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.33.post_attention_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.33.self_attn.k_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.33.self_attn.o_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.33.self_attn.q_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.33.self_attn.v_proj.weight": "model-00008-of-00015.safetensors",
+    "model.layers.34.input_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.mlp.down_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.mlp.gate_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.mlp.up_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.post_attention_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.self_attn.k_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.self_attn.o_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.self_attn.q_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.34.self_attn.v_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.input_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.mlp.down_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.mlp.gate_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.mlp.up_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.post_attention_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.self_attn.k_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.self_attn.o_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.self_attn.q_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.35.self_attn.v_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.input_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.mlp.down_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.mlp.gate_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.mlp.up_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.post_attention_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.self_attn.k_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.self_attn.o_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.self_attn.q_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.36.self_attn.v_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.input_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.mlp.down_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.mlp.gate_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.mlp.up_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.post_attention_layernorm.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.self_attn.k_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.self_attn.o_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.self_attn.q_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.37.self_attn.v_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.38.input_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.38.mlp.down_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.38.mlp.gate_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.38.mlp.up_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.38.post_attention_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.38.self_attn.k_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.38.self_attn.o_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.38.self_attn.q_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.38.self_attn.v_proj.weight": "model-00009-of-00015.safetensors",
+    "model.layers.39.input_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.mlp.down_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.mlp.gate_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.mlp.up_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.post_attention_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.self_attn.k_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.self_attn.o_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.self_attn.q_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.39.self_attn.v_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.40.input_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.mlp.down_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.mlp.gate_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.mlp.up_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.post_attention_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.self_attn.k_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.self_attn.o_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.self_attn.q_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.40.self_attn.v_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.input_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.mlp.down_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.mlp.gate_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.mlp.up_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.post_attention_layernorm.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.self_attn.k_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.self_attn.o_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.self_attn.q_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.41.self_attn.v_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.42.input_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.42.mlp.down_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.42.mlp.gate_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.42.mlp.up_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.42.post_attention_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.42.self_attn.k_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.42.self_attn.o_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.42.self_attn.q_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.42.self_attn.v_proj.weight": "model-00010-of-00015.safetensors",
+    "model.layers.43.input_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.mlp.down_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.mlp.gate_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.mlp.up_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.post_attention_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.self_attn.k_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.self_attn.o_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.self_attn.q_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.43.self_attn.v_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.input_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.mlp.down_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.mlp.gate_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.mlp.up_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.post_attention_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.self_attn.k_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.self_attn.o_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.self_attn.q_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.44.self_attn.v_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.input_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.mlp.down_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.mlp.gate_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.mlp.up_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.post_attention_layernorm.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.self_attn.k_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.self_attn.o_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.self_attn.q_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.45.self_attn.v_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.46.input_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.46.mlp.down_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.46.mlp.gate_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.46.mlp.up_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.46.post_attention_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.46.self_attn.k_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.46.self_attn.o_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.46.self_attn.q_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.46.self_attn.v_proj.weight": "model-00011-of-00015.safetensors",
+    "model.layers.47.input_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.mlp.down_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.mlp.gate_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.mlp.up_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.post_attention_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.self_attn.k_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.self_attn.o_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.self_attn.q_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.47.self_attn.v_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.input_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.mlp.down_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.mlp.gate_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.mlp.up_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.post_attention_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.self_attn.k_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.self_attn.o_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.self_attn.q_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.48.self_attn.v_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.input_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.mlp.down_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.mlp.gate_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.mlp.up_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.post_attention_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.self_attn.k_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.self_attn.o_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.self_attn.q_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.49.self_attn.v_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.50.input_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.mlp.down_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.mlp.gate_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.mlp.up_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.post_attention_layernorm.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.self_attn.k_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.self_attn.o_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.self_attn.q_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.50.self_attn.v_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.51.input_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.51.mlp.down_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.51.mlp.gate_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.51.mlp.up_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.51.post_attention_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.51.self_attn.k_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.51.self_attn.o_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.51.self_attn.q_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.51.self_attn.v_proj.weight": "model-00012-of-00015.safetensors",
+    "model.layers.52.input_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.mlp.down_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.mlp.gate_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.mlp.up_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.post_attention_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.self_attn.k_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.self_attn.o_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.self_attn.q_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.52.self_attn.v_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.input_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.mlp.down_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.mlp.gate_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.mlp.up_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.post_attention_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.self_attn.k_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.self_attn.o_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.self_attn.q_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.53.self_attn.v_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.input_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.mlp.down_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.mlp.gate_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.mlp.up_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.post_attention_layernorm.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.self_attn.k_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.self_attn.o_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.self_attn.q_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.54.self_attn.v_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.55.input_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.55.mlp.down_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.55.mlp.gate_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.55.mlp.up_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.55.post_attention_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.55.self_attn.k_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.55.self_attn.o_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.55.self_attn.q_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.55.self_attn.v_proj.weight": "model-00013-of-00015.safetensors",
+    "model.layers.56.input_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.mlp.down_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.mlp.gate_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.mlp.up_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.post_attention_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.self_attn.k_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.self_attn.o_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.self_attn.q_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.56.self_attn.v_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.input_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.mlp.down_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.mlp.gate_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.mlp.up_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.post_attention_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.self_attn.k_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.self_attn.o_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.self_attn.q_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.57.self_attn.v_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.input_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.mlp.down_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.mlp.gate_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.mlp.up_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.post_attention_layernorm.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.self_attn.k_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.self_attn.o_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.self_attn.q_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.58.self_attn.v_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.59.input_layernorm.weight": "model-00015-of-00015.safetensors",
+    "model.layers.59.mlp.down_proj.weight": "model-00015-of-00015.safetensors",
+    "model.layers.59.mlp.gate_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.59.mlp.up_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.59.post_attention_layernorm.weight": "model-00015-of-00015.safetensors",
+    "model.layers.59.self_attn.k_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.59.self_attn.o_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.59.self_attn.q_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.59.self_attn.v_proj.weight": "model-00014-of-00015.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00015.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00003-of-00015.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00003-of-00015.safetensors",
+    "model.norm.weight": "model-00015-of-00015.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<|startoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386c49cf943d71aa110361135338c50e38beeff0a66593480421f37b319e1a39
+size 1033105

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,53 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": true,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<|startoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|startoftext|>",
+  "chat_template": "{% if messages[0]['role'] == 'system' %}{% set system_message = messages[0]['content'] %}{% endif %}{% if system_message is defined %}{{ system_message }}{% endif %}{% for message in messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|im_start|>user\\n' + content + '<|im_end|>\\n<|im_start|>assistant\\n' }}{% elif message['role'] == 'assistant' %}{{ content + '<|im_end|>' + '\\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "legacy": true,
+  "model_max_length": 4096,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}