jspr commited on Feb 20

Commit

4672c95

•

1 Parent(s): af667ea

initial commit

Browse files

Files changed (40) hide show

README.md +153 -0
adapter_config.json +32 -0
adapter_model.bin +3 -0
checkpoint-132/README.md +204 -0
checkpoint-132/adapter_config.json +32 -0
checkpoint-132/adapter_model.safetensors +3 -0
checkpoint-132/optimizer.pt +3 -0
checkpoint-132/rng_state.pth +3 -0
checkpoint-132/scheduler.pt +3 -0
checkpoint-132/trainer_state.json +877 -0
checkpoint-132/training_args.bin +3 -0
checkpoint-198/README.md +204 -0
checkpoint-198/adapter_config.json +32 -0
checkpoint-198/adapter_model.safetensors +3 -0
checkpoint-198/optimizer.pt +3 -0
checkpoint-198/rng_state.pth +3 -0
checkpoint-198/scheduler.pt +3 -0
checkpoint-198/trainer_state.json +1305 -0
checkpoint-198/training_args.bin +3 -0
checkpoint-264/README.md +204 -0
checkpoint-264/adapter_config.json +32 -0
checkpoint-264/adapter_model.safetensors +3 -0
checkpoint-264/optimizer.pt +3 -0
checkpoint-264/rng_state.pth +3 -0
checkpoint-264/scheduler.pt +3 -0
checkpoint-264/trainer_state.json +1733 -0
checkpoint-264/training_args.bin +3 -0
checkpoint-66/README.md +204 -0
checkpoint-66/adapter_config.json +32 -0
checkpoint-66/adapter_model.safetensors +3 -0
checkpoint-66/optimizer.pt +3 -0
checkpoint-66/rng_state.pth +3 -0
checkpoint-66/scheduler.pt +3 -0
checkpoint-66/trainer_state.json +449 -0
checkpoint-66/training_args.bin +3 -0
config.json +43 -0
runs/Feb20_06-57-12_16b73cf3ac9a/events.out.tfevents.1708412232.16b73cf3ac9a.583.0 +3 -0
special_tokens_map.json +30 -0
tokenizer.model +3 -0
tokenizer_config.json +43 -0

README.md ADDED Viewed

	@@ -0,0 +1,153 @@

+---
+library_name: peft
+tags:
+- generated_from_trainer
+base_model: NousResearch/Llama-2-7b-hf
+model-index:
+- name: lora-out
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+[<img src="https://raw.githubusercontent.com/OpenAccess-AI-Collective/axolotl/main/image/axolotl-badge-web.png" alt="Built with Axolotl" width="200" height="32"/>](https://github.com/OpenAccess-AI-Collective/axolotl)
+<details><summary>See axolotl config</summary>
+axolotl version: `0.4.0`
+```yaml
+base_model: NousResearch/Llama-2-7b-hf
+model_type: LlamaForCausalLM
+tokenizer_type: LlamaTokenizer
+is_llama_derived_model: true
+load_in_8bit: true
+load_in_4bit: false
+strict: false
+datasets:
+  - path: datasets-jsonl/smut-bts-responses-881.jsonl
+    ds_type: json
+    type: alpaca
+dataset_prepared_path:
+val_set_size: 0.05
+output_dir: ./lora-out
+sequence_len: 4096
+sample_packing: true
+pad_to_sequence_len: true
+adapter: lora
+lora_model_dir:
+lora_r: 32
+lora_alpha: 16
+lora_dropout: 0.05
+lora_target_linear: true
+lora_fan_in_fan_out:
+wandb_project:
+wandb_entity:
+wandb_watch:
+wandb_name:
+wandb_log_model:
+gradient_accumulation_steps: 4
+micro_batch_size: 2
+num_epochs: 4
+optimizer: adamw_bnb_8bit
+lr_scheduler: cosine
+learning_rate: 0.0002
+train_on_inputs: false
+group_by_length: false
+bf16: auto
+fp16:
+tf32: false
+gradient_checkpointing: true
+early_stopping_patience:
+resume_from_checkpoint:
+local_rank:
+logging_steps: 1
+xformers_attention:
+flash_attention: true
+s2_attention:
+warmup_steps: 10
+evals_per_epoch: 4
+eval_table_size:
+eval_max_new_tokens: 128
+saves_per_epoch: 1
+debug:
+deepspeed:
+weight_decay: 0.0
+fsdp:
+fsdp_config:
+special_tokens:
+```
+</details><br>
+# lora-out
+This model is a fine-tuned version of [NousResearch/Llama-2-7b-hf](https://huggingface.co/NousResearch/Llama-2-7b-hf) on the None dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.9196
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.0002
+- train_batch_size: 2
+- eval_batch_size: 2
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 8
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
+- num_epochs: 4
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.8373        | 0.02  | 1    | 1.8334          |
+| 1.738         | 0.26  | 17   | 1.7546          |
+| 1.704         | 0.51  | 34   | 1.7389          |
+| 1.6762        | 0.77  | 51   | 1.7410          |
+| 1.5981        | 1.02  | 68   | 1.7487          |
+| 1.5593        | 1.26  | 85   | 1.7956          |
+| 1.4415        | 1.51  | 102  | 1.7860          |
+| 1.6098        | 1.77  | 119  | 1.8020          |
+| 1.5458        | 2.02  | 136  | 1.8526          |
+| 1.4358        | 2.26  | 153  | 1.8557          |
+| 1.4608        | 2.51  | 170  | 1.8844          |
+| 1.4465        | 2.77  | 187  | 1.8980          |
+| 1.3986        | 3.02  | 204  | 1.8998          |
+| 1.5333        | 3.26  | 221  | 1.9195          |
+| 1.3554        | 3.51  | 238  | 1.9184          |
+| 1.3287        | 3.77  | 255  | 1.9196          |
+### Framework versions
+- PEFT 0.8.2
+- Transformers 4.38.0.dev0
+- Pytorch 2.1.2+cu118
+- Datasets 2.17.0
+- Tokenizers 0.15.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "NousResearch/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "q_proj",
+    "v_proj",
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a86c191d946fa4b885845f13a7aec1f83b893f9a289c8a5783c9863b4d7f1c7
+size 319977674

checkpoint-132/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: NousResearch/Llama-2-7b-hf
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-132/adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "NousResearch/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "q_proj",
+    "v_proj",
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-132/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff66d5f4bbef473ecef9c32dfe7e07970394c6cb7cfa4fe242d2ddde57594abe
+size 319876032

checkpoint-132/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa395d6f6c760283905f252fffcd87786e09d507ff6b01abdae43a13c3940dbc
+size 160736084

checkpoint-132/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:033777bd103409834094d47469b3cca17c2d5a6248cfb7c36f0e494a487e3a7a
+size 14244

checkpoint-132/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de4eb642ec55bc27ceb634e128c48f859bc0520c824cc983a09eeecbc166cb01
+size 1064

checkpoint-132/trainer_state.json ADDED Viewed

	@@ -0,0 +1,877 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.962406015037594,
+  "eval_steps": 17,
+  "global_step": 132,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.8373,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 1.8333783149719238,
+      "eval_runtime": 16.5756,
+      "eval_samples_per_second": 2.715,
+      "eval_steps_per_second": 1.388,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 1.8119,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 1.8301,
+      "step": 3
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 8e-05,
+      "loss": 1.7976,
+      "step": 4
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 1.853,
+      "step": 5
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00012,
+      "loss": 1.7586,
+      "step": 6
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00014,
+      "loss": 1.8416,
+      "step": 7
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00016,
+      "loss": 1.7755,
+      "step": 8
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018,
+      "loss": 1.804,
+      "step": 9
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002,
+      "loss": 1.7858,
+      "step": 10
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001999923511388017,
+      "loss": 1.7311,
+      "step": 11
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001999694057253083,
+      "loss": 1.7012,
+      "step": 12
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019993116726964554,
+      "loss": 1.742,
+      "step": 13
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019987764162142613,
+      "loss": 1.7209,
+      "step": 14
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001998088369688552,
+      "loss": 1.7578,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019972476383747748,
+      "loss": 1.6906,
+      "step": 16
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001996254350885672,
+      "loss": 1.738,
+      "step": 17
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.754616141319275,
+      "eval_runtime": 16.6372,
+      "eval_samples_per_second": 2.705,
+      "eval_steps_per_second": 1.382,
+      "step": 17
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001995108659171607,
+      "loss": 1.7976,
+      "step": 18
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019938107384973166,
+      "loss": 1.7781,
+      "step": 19
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019923607874151032,
+      "loss": 1.7737,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019907590277344582,
+      "loss": 1.6662,
+      "step": 21
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019890057044881306,
+      "loss": 1.7869,
+      "step": 22
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001987101085894644,
+      "loss": 1.6646,
+      "step": 23
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019850454633172631,
+      "loss": 1.7482,
+      "step": 24
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001982839151219424,
+      "loss": 1.7112,
+      "step": 25
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019804824871166255,
+      "loss": 1.7083,
+      "step": 26
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019779758315248004,
+      "loss": 1.728,
+      "step": 27
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019753195679051628,
+      "loss": 1.7292,
+      "step": 28
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001972514102605547,
+      "loss": 1.6902,
+      "step": 29
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019695598647982468,
+      "loss": 1.7432,
+      "step": 30
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00019664573064143604,
+      "loss": 1.7258,
+      "step": 31
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019632069020746572,
+      "loss": 1.7363,
+      "step": 32
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019598091490169694,
+      "loss": 1.7142,
+      "step": 33
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019562645670201276,
+      "loss": 1.704,
+      "step": 34
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 1.7388739585876465,
+      "eval_runtime": 16.5955,
+      "eval_samples_per_second": 2.712,
+      "eval_steps_per_second": 1.386,
+      "step": 34
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001952573698324446,
+      "loss": 1.7393,
+      "step": 35
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019487371075487713,
+      "loss": 1.7568,
+      "step": 36
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000194475538160411,
+      "loss": 1.7445,
+      "step": 37
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001940629129603844,
+      "loss": 1.6595,
+      "step": 38
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00019363589827705492,
+      "loss": 1.7288,
+      "step": 39
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019319455943394347,
+      "loss": 1.6342,
+      "step": 40
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019273896394584103,
+      "loss": 1.7066,
+      "step": 41
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019226918150848068,
+      "loss": 1.6558,
+      "step": 42
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019178528398787551,
+      "loss": 1.6756,
+      "step": 43
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00019128734540932495,
+      "loss": 1.7146,
+      "step": 44
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00019077544194609042,
+      "loss": 1.7043,
+      "step": 45
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019024965190774263,
+      "loss": 1.6396,
+      "step": 46
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00018971005572818213,
+      "loss": 1.648,
+      "step": 47
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00018915673595333444,
+      "loss": 1.5988,
+      "step": 48
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00018858977722852275,
+      "loss": 1.7394,
+      "step": 49
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00018800926628551886,
+      "loss": 1.6362,
+      "step": 50
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00018741529192927526,
+      "loss": 1.6762,
+      "step": 51
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.7409569025039673,
+      "eval_runtime": 16.7147,
+      "eval_samples_per_second": 2.692,
+      "eval_steps_per_second": 1.376,
+      "step": 51
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00018680794502434018,
+      "loss": 1.6534,
+      "step": 52
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00018618731848095706,
+      "loss": 1.6551,
+      "step": 53
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00018555350724085162,
+      "loss": 1.6297,
+      "step": 54
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001849066082627079,
+      "loss": 1.7152,
+      "step": 55
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00018424672050733576,
+      "loss": 1.7062,
+      "step": 56
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00018357394492253215,
+      "loss": 1.5742,
+      "step": 57
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00018288838442763838,
+      "loss": 1.6424,
+      "step": 58
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00018219014389779585,
+      "loss": 1.6544,
+      "step": 59
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018147933014790244,
+      "loss": 1.6179,
+      "step": 60
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001807560519162724,
+      "loss": 1.6823,
+      "step": 61
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00018002041984800174,
+      "loss": 1.5845,
+      "step": 62
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00017927254647804209,
+      "loss": 1.6177,
+      "step": 63
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0001785125462139855,
+      "loss": 1.6196,
+      "step": 64
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00017774053531856258,
+      "loss": 1.6526,
+      "step": 65
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.000176956631891857,
+      "loss": 1.5792,
+      "step": 66
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00017616095585323878,
+      "loss": 1.6652,
+      "step": 67
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00017535362892301954,
+      "loss": 1.5981,
+      "step": 68
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 1.7487449645996094,
+      "eval_runtime": 16.6837,
+      "eval_samples_per_second": 2.697,
+      "eval_steps_per_second": 1.379,
+      "step": 68
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001745347746038319,
+      "loss": 1.6053,
+      "step": 69
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001737045181617364,
+      "loss": 1.6171,
+      "step": 70
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00017286298660705875,
+      "loss": 1.631,
+      "step": 71
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00017201030867496005,
+      "loss": 1.5558,
+      "step": 72
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00017114661480574332,
+      "loss": 1.5339,
+      "step": 73
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.000170272037124899,
+      "loss": 1.6548,
+      "step": 74
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00016938670942289293,
+      "loss": 1.5526,
+      "step": 75
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00016849076713469914,
+      "loss": 1.5565,
+      "step": 76
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00016758434731908178,
+      "loss": 1.5604,
+      "step": 77
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00016666758863762793,
+      "loss": 1.5654,
+      "step": 78
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00016574063133353582,
+      "loss": 1.5967,
+      "step": 79
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00016480361721016054,
+      "loss": 1.5608,
+      "step": 80
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00016385668960932143,
+      "loss": 1.5801,
+      "step": 81
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00016289999338937427,
+      "loss": 1.5472,
+      "step": 82
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00016193367490305088,
+      "loss": 1.5126,
+      "step": 83
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00016095788197507081,
+      "loss": 1.5896,
+      "step": 84
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00015997276387952732,
+      "loss": 1.5593,
+      "step": 85
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.79562509059906,
+      "eval_runtime": 16.6149,
+      "eval_samples_per_second": 2.708,
+      "eval_steps_per_second": 1.384,
+      "step": 85
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00015897847131705195,
+      "loss": 1.5616,
+      "step": 86
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00015797515639176074,
+      "loss": 1.596,
+      "step": 87
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001569629725879857,
+      "loss": 1.595,
+      "step": 88
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00015594207474679532,
+      "loss": 1.5442,
+      "step": 89
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00015491261904230727,
+      "loss": 1.5812,
+      "step": 90
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00015387476295779736,
+      "loss": 1.5214,
+      "step": 91
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00015282866526160837,
+      "loss": 1.5403,
+      "step": 92
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001517744859828618,
+      "loss": 1.4751,
+      "step": 93
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00015071238638697732,
+      "loss": 1.5861,
+      "step": 94
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00014964252895100264,
+      "loss": 1.5334,
+      "step": 95
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00014856507733875836,
+      "loss": 1.4884,
+      "step": 96
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00014748019637580114,
+      "loss": 1.5297,
+      "step": 97
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00014638805202420895,
+      "loss": 1.4725,
+      "step": 98
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001452888113571929,
+      "loss": 1.4849,
+      "step": 99
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0001441826425335387,
+      "loss": 1.5654,
+      "step": 100
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00014306971477188223,
+      "loss": 1.6349,
+      "step": 101
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0001419501983248229,
+      "loss": 1.4415,
+      "step": 102
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 1.7860450744628906,
+      "eval_runtime": 16.6303,
+      "eval_samples_per_second": 2.706,
+      "eval_steps_per_second": 1.383,
+      "step": 102
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014082426445287903,
+      "loss": 1.5735,
+      "step": 103
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00013969208539828872,
+      "loss": 1.5328,
+      "step": 104
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00013855383435866077,
+      "loss": 1.5466,
+      "step": 105
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00013740968546047935,
+      "loss": 1.5861,
+      "step": 106
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0001362598137324667,
+      "loss": 1.5449,
+      "step": 107
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00013510439507880776,
+      "loss": 1.6084,
+      "step": 108
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013394360625224068,
+      "loss": 1.5249,
+      "step": 109
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013277762482701767,
+      "loss": 1.5594,
+      "step": 110
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013160662917174044,
+      "loss": 1.5877,
+      "step": 111
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001304307984220736,
+      "loss": 1.4964,
+      "step": 112
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0001292503124533411,
+      "loss": 1.4538,
+      "step": 113
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001280653518530093,
+      "loss": 1.4454,
+      "step": 114
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012687609789306144,
+      "loss": 1.4512,
+      "step": 115
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001256827325022668,
+      "loss": 1.38,
+      "step": 116
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012448543823835015,
+      "loss": 1.5207,
+      "step": 117
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00012328439826006415,
+      "loss": 1.4787,
+      "step": 118
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001220797962991706,
+      "loss": 1.6098,
+      "step": 119
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 1.8019659519195557,
+      "eval_runtime": 16.646,
+      "eval_samples_per_second": 2.703,
+      "eval_steps_per_second": 1.382,
+      "step": 119
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012087181663233354,
+      "loss": 1.4798,
+      "step": 120
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00011966064405292887,
+      "loss": 1.5248,
+      "step": 121
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0001184464638427756,
+      "loss": 1.4309,
+      "step": 122
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011722946174379168,
+      "loss": 1.4477,
+      "step": 123
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011600982392957978,
+      "loss": 1.4843,
+      "step": 124
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011478773697694691,
+      "loss": 1.4298,
+      "step": 125
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011356338783736255,
+      "loss": 1.4775,
+      "step": 126
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0001123369638083593,
+      "loss": 1.5159,
+      "step": 127
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011110865250488047,
+      "loss": 1.3696,
+      "step": 128
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010987864183057943,
+      "loss": 1.4259,
+      "step": 129
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010864711994907458,
+      "loss": 1.5685,
+      "step": 130
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010741427525516463,
+      "loss": 1.4997,
+      "step": 131
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010618029634600843,
+      "loss": 1.4718,
+      "step": 132
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 264,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 66,
+  "total_flos": 1.735504576024412e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-132/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:136f5d9dd7fc2fabff6e80dd48a495a4cd5f0ab1af46964ed1af4cae2dae0a30
+size 5368

checkpoint-198/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: NousResearch/Llama-2-7b-hf
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-198/adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "NousResearch/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "q_proj",
+    "v_proj",
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-198/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:04d60df740d004f2f8fc02ab7629f17eda12e7f196d4e3ca2007a1c01e241070
+size 319876032

checkpoint-198/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6cf9f9f4e2352f491ffe3174aab029a8f216fd109f0969ae76546b26b87abad3
+size 160736084

checkpoint-198/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b24c8f59fb317620940030d2ae7ef634f7daed1f9db265c73e4e71c9e414c70
+size 14244

checkpoint-198/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a12cb0c64acf3eef37e83a0dd97998eb7ff772c6f1dd6f52d79dbdcdbe2d2264
+size 1064

checkpoint-198/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1305 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.932330827067669,
+  "eval_steps": 17,
+  "global_step": 198,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.8373,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 1.8333783149719238,
+      "eval_runtime": 16.5756,
+      "eval_samples_per_second": 2.715,
+      "eval_steps_per_second": 1.388,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 1.8119,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 1.8301,
+      "step": 3
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 8e-05,
+      "loss": 1.7976,
+      "step": 4
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 1.853,
+      "step": 5
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00012,
+      "loss": 1.7586,
+      "step": 6
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00014,
+      "loss": 1.8416,
+      "step": 7
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00016,
+      "loss": 1.7755,
+      "step": 8
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018,
+      "loss": 1.804,
+      "step": 9
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002,
+      "loss": 1.7858,
+      "step": 10
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001999923511388017,
+      "loss": 1.7311,
+      "step": 11
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001999694057253083,
+      "loss": 1.7012,
+      "step": 12
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019993116726964554,
+      "loss": 1.742,
+      "step": 13
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019987764162142613,
+      "loss": 1.7209,
+      "step": 14
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001998088369688552,
+      "loss": 1.7578,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019972476383747748,
+      "loss": 1.6906,
+      "step": 16
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001996254350885672,
+      "loss": 1.738,
+      "step": 17
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.754616141319275,
+      "eval_runtime": 16.6372,
+      "eval_samples_per_second": 2.705,
+      "eval_steps_per_second": 1.382,
+      "step": 17
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001995108659171607,
+      "loss": 1.7976,
+      "step": 18
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019938107384973166,
+      "loss": 1.7781,
+      "step": 19
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019923607874151032,
+      "loss": 1.7737,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019907590277344582,
+      "loss": 1.6662,
+      "step": 21
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019890057044881306,
+      "loss": 1.7869,
+      "step": 22
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001987101085894644,
+      "loss": 1.6646,
+      "step": 23
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019850454633172631,
+      "loss": 1.7482,
+      "step": 24
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001982839151219424,
+      "loss": 1.7112,
+      "step": 25
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019804824871166255,
+      "loss": 1.7083,
+      "step": 26
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019779758315248004,
+      "loss": 1.728,
+      "step": 27
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019753195679051628,
+      "loss": 1.7292,
+      "step": 28
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001972514102605547,
+      "loss": 1.6902,
+      "step": 29
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019695598647982468,
+      "loss": 1.7432,
+      "step": 30
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00019664573064143604,
+      "loss": 1.7258,
+      "step": 31
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019632069020746572,
+      "loss": 1.7363,
+      "step": 32
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019598091490169694,
+      "loss": 1.7142,
+      "step": 33
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019562645670201276,
+      "loss": 1.704,
+      "step": 34
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 1.7388739585876465,
+      "eval_runtime": 16.5955,
+      "eval_samples_per_second": 2.712,
+      "eval_steps_per_second": 1.386,
+      "step": 34
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001952573698324446,
+      "loss": 1.7393,
+      "step": 35
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019487371075487713,
+      "loss": 1.7568,
+      "step": 36
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000194475538160411,
+      "loss": 1.7445,
+      "step": 37
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001940629129603844,
+      "loss": 1.6595,
+      "step": 38
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00019363589827705492,
+      "loss": 1.7288,
+      "step": 39
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019319455943394347,
+      "loss": 1.6342,
+      "step": 40
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019273896394584103,
+      "loss": 1.7066,
+      "step": 41
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019226918150848068,
+      "loss": 1.6558,
+      "step": 42
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019178528398787551,
+      "loss": 1.6756,
+      "step": 43
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00019128734540932495,
+      "loss": 1.7146,
+      "step": 44
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00019077544194609042,
+      "loss": 1.7043,
+      "step": 45
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019024965190774263,
+      "loss": 1.6396,
+      "step": 46
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00018971005572818213,
+      "loss": 1.648,
+      "step": 47
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00018915673595333444,
+      "loss": 1.5988,
+      "step": 48
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00018858977722852275,
+      "loss": 1.7394,
+      "step": 49
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00018800926628551886,
+      "loss": 1.6362,
+      "step": 50
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00018741529192927526,
+      "loss": 1.6762,
+      "step": 51
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.7409569025039673,
+      "eval_runtime": 16.7147,
+      "eval_samples_per_second": 2.692,
+      "eval_steps_per_second": 1.376,
+      "step": 51
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00018680794502434018,
+      "loss": 1.6534,
+      "step": 52
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00018618731848095706,
+      "loss": 1.6551,
+      "step": 53
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00018555350724085162,
+      "loss": 1.6297,
+      "step": 54
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001849066082627079,
+      "loss": 1.7152,
+      "step": 55
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00018424672050733576,
+      "loss": 1.7062,
+      "step": 56
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00018357394492253215,
+      "loss": 1.5742,
+      "step": 57
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00018288838442763838,
+      "loss": 1.6424,
+      "step": 58
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00018219014389779585,
+      "loss": 1.6544,
+      "step": 59
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018147933014790244,
+      "loss": 1.6179,
+      "step": 60
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001807560519162724,
+      "loss": 1.6823,
+      "step": 61
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00018002041984800174,
+      "loss": 1.5845,
+      "step": 62
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00017927254647804209,
+      "loss": 1.6177,
+      "step": 63
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0001785125462139855,
+      "loss": 1.6196,
+      "step": 64
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00017774053531856258,
+      "loss": 1.6526,
+      "step": 65
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.000176956631891857,
+      "loss": 1.5792,
+      "step": 66
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00017616095585323878,
+      "loss": 1.6652,
+      "step": 67
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00017535362892301954,
+      "loss": 1.5981,
+      "step": 68
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 1.7487449645996094,
+      "eval_runtime": 16.6837,
+      "eval_samples_per_second": 2.697,
+      "eval_steps_per_second": 1.379,
+      "step": 68
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001745347746038319,
+      "loss": 1.6053,
+      "step": 69
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001737045181617364,
+      "loss": 1.6171,
+      "step": 70
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00017286298660705875,
+      "loss": 1.631,
+      "step": 71
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00017201030867496005,
+      "loss": 1.5558,
+      "step": 72
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00017114661480574332,
+      "loss": 1.5339,
+      "step": 73
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.000170272037124899,
+      "loss": 1.6548,
+      "step": 74
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00016938670942289293,
+      "loss": 1.5526,
+      "step": 75
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00016849076713469914,
+      "loss": 1.5565,
+      "step": 76
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00016758434731908178,
+      "loss": 1.5604,
+      "step": 77
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00016666758863762793,
+      "loss": 1.5654,
+      "step": 78
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00016574063133353582,
+      "loss": 1.5967,
+      "step": 79
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00016480361721016054,
+      "loss": 1.5608,
+      "step": 80
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00016385668960932143,
+      "loss": 1.5801,
+      "step": 81
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00016289999338937427,
+      "loss": 1.5472,
+      "step": 82
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00016193367490305088,
+      "loss": 1.5126,
+      "step": 83
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00016095788197507081,
+      "loss": 1.5896,
+      "step": 84
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00015997276387952732,
+      "loss": 1.5593,
+      "step": 85
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.79562509059906,
+      "eval_runtime": 16.6149,
+      "eval_samples_per_second": 2.708,
+      "eval_steps_per_second": 1.384,
+      "step": 85
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00015897847131705195,
+      "loss": 1.5616,
+      "step": 86
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00015797515639176074,
+      "loss": 1.596,
+      "step": 87
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001569629725879857,
+      "loss": 1.595,
+      "step": 88
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00015594207474679532,
+      "loss": 1.5442,
+      "step": 89
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00015491261904230727,
+      "loss": 1.5812,
+      "step": 90
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00015387476295779736,
+      "loss": 1.5214,
+      "step": 91
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00015282866526160837,
+      "loss": 1.5403,
+      "step": 92
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001517744859828618,
+      "loss": 1.4751,
+      "step": 93
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00015071238638697732,
+      "loss": 1.5861,
+      "step": 94
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00014964252895100264,
+      "loss": 1.5334,
+      "step": 95
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00014856507733875836,
+      "loss": 1.4884,
+      "step": 96
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00014748019637580114,
+      "loss": 1.5297,
+      "step": 97
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00014638805202420895,
+      "loss": 1.4725,
+      "step": 98
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001452888113571929,
+      "loss": 1.4849,
+      "step": 99
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0001441826425335387,
+      "loss": 1.5654,
+      "step": 100
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00014306971477188223,
+      "loss": 1.6349,
+      "step": 101
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0001419501983248229,
+      "loss": 1.4415,
+      "step": 102
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 1.7860450744628906,
+      "eval_runtime": 16.6303,
+      "eval_samples_per_second": 2.706,
+      "eval_steps_per_second": 1.383,
+      "step": 102
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014082426445287903,
+      "loss": 1.5735,
+      "step": 103
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00013969208539828872,
+      "loss": 1.5328,
+      "step": 104
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00013855383435866077,
+      "loss": 1.5466,
+      "step": 105
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00013740968546047935,
+      "loss": 1.5861,
+      "step": 106
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0001362598137324667,
+      "loss": 1.5449,
+      "step": 107
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00013510439507880776,
+      "loss": 1.6084,
+      "step": 108
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013394360625224068,
+      "loss": 1.5249,
+      "step": 109
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013277762482701767,
+      "loss": 1.5594,
+      "step": 110
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013160662917174044,
+      "loss": 1.5877,
+      "step": 111
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001304307984220736,
+      "loss": 1.4964,
+      "step": 112
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0001292503124533411,
+      "loss": 1.4538,
+      "step": 113
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001280653518530093,
+      "loss": 1.4454,
+      "step": 114
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012687609789306144,
+      "loss": 1.4512,
+      "step": 115
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001256827325022668,
+      "loss": 1.38,
+      "step": 116
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012448543823835015,
+      "loss": 1.5207,
+      "step": 117
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00012328439826006415,
+      "loss": 1.4787,
+      "step": 118
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001220797962991706,
+      "loss": 1.6098,
+      "step": 119
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 1.8019659519195557,
+      "eval_runtime": 16.646,
+      "eval_samples_per_second": 2.703,
+      "eval_steps_per_second": 1.382,
+      "step": 119
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012087181663233354,
+      "loss": 1.4798,
+      "step": 120
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00011966064405292887,
+      "loss": 1.5248,
+      "step": 121
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0001184464638427756,
+      "loss": 1.4309,
+      "step": 122
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011722946174379168,
+      "loss": 1.4477,
+      "step": 123
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011600982392957978,
+      "loss": 1.4843,
+      "step": 124
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011478773697694691,
+      "loss": 1.4298,
+      "step": 125
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011356338783736255,
+      "loss": 1.4775,
+      "step": 126
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0001123369638083593,
+      "loss": 1.5159,
+      "step": 127
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011110865250488047,
+      "loss": 1.3696,
+      "step": 128
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010987864183057943,
+      "loss": 1.4259,
+      "step": 129
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010864711994907458,
+      "loss": 1.5685,
+      "step": 130
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010741427525516463,
+      "loss": 1.4997,
+      "step": 131
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010618029634600843,
+      "loss": 1.4718,
+      "step": 132
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010494537199227392,
+      "loss": 1.5824,
+      "step": 133
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010370969110926052,
+      "loss": 1.5392,
+      "step": 134
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0001024734427279995,
+      "loss": 1.5724,
+      "step": 135
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00010123681596633629,
+      "loss": 1.5458,
+      "step": 136
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 1.852607250213623,
+      "eval_runtime": 16.6761,
+      "eval_samples_per_second": 2.698,
+      "eval_steps_per_second": 1.379,
+      "step": 136
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0001,
+      "loss": 1.3,
+      "step": 137
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.876318403366372e-05,
+      "loss": 1.4398,
+      "step": 138
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.75265572720005e-05,
+      "loss": 1.4742,
+      "step": 139
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.629030889073949e-05,
+      "loss": 1.428,
+      "step": 140
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.505462800772612e-05,
+      "loss": 1.4537,
+      "step": 141
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.38197036539916e-05,
+      "loss": 1.4288,
+      "step": 142
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 9.25857247448354e-05,
+      "loss": 1.4514,
+      "step": 143
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 9.135288005092546e-05,
+      "loss": 1.3794,
+      "step": 144
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 9.012135816942058e-05,
+      "loss": 1.4776,
+      "step": 145
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.889134749511955e-05,
+      "loss": 1.3694,
+      "step": 146
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.76630361916407e-05,
+      "loss": 1.4572,
+      "step": 147
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.643661216263743e-05,
+      "loss": 1.4835,
+      "step": 148
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.521226302305311e-05,
+      "loss": 1.3926,
+      "step": 149
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 8.399017607042025e-05,
+      "loss": 1.367,
+      "step": 150
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 8.277053825620836e-05,
+      "loss": 1.426,
+      "step": 151
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 8.155353615722442e-05,
+      "loss": 1.3622,
+      "step": 152
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 8.033935594707117e-05,
+      "loss": 1.4358,
+      "step": 153
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 1.855719804763794,
+      "eval_runtime": 16.6995,
+      "eval_samples_per_second": 2.695,
+      "eval_steps_per_second": 1.377,
+      "step": 153
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.91281833676665e-05,
+      "loss": 1.5099,
+      "step": 154
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.79202037008294e-05,
+      "loss": 1.4327,
+      "step": 155
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.671560173993587e-05,
+      "loss": 1.4428,
+      "step": 156
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 7.551456176164989e-05,
+      "loss": 1.4409,
+      "step": 157
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 7.431726749773322e-05,
+      "loss": 1.4845,
+      "step": 158
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 7.312390210693863e-05,
+      "loss": 1.4052,
+      "step": 159
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 7.193464814699073e-05,
+      "loss": 1.4676,
+      "step": 160
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 7.07496875466589e-05,
+      "loss": 1.4254,
+      "step": 161
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.956920157792639e-05,
+      "loss": 1.5144,
+      "step": 162
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 6.839337082825955e-05,
+      "loss": 1.4274,
+      "step": 163
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 6.722237517298232e-05,
+      "loss": 1.3997,
+      "step": 164
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 6.605639374775934e-05,
+      "loss": 1.4757,
+      "step": 165
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 6.489560492119225e-05,
+      "loss": 1.424,
+      "step": 166
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 6.374018626753331e-05,
+      "loss": 1.434,
+      "step": 167
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 6.259031453952069e-05,
+      "loss": 1.4782,
+      "step": 168
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 6.144616564133928e-05,
+      "loss": 1.3865,
+      "step": 169
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 6.0307914601711305e-05,
+      "loss": 1.4608,
+      "step": 170
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 1.884387731552124,
+      "eval_runtime": 16.8363,
+      "eval_samples_per_second": 2.673,
+      "eval_steps_per_second": 1.366,
+      "step": 170
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 5.917573554712097e-05,
+      "loss": 1.5069,
+      "step": 171
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 5.8049801675177115e-05,
+      "loss": 1.4022,
+      "step": 172
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 5.693028522811783e-05,
+      "loss": 1.4741,
+      "step": 173
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 5.5817357466461336e-05,
+      "loss": 1.527,
+      "step": 174
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 5.471118864280716e-05,
+      "loss": 1.4785,
+      "step": 175
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 5.361194797579108e-05,
+      "loss": 1.4178,
+      "step": 176
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 5.251980362419886e-05,
+      "loss": 1.4574,
+      "step": 177
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 5.1434922661241635e-05,
+      "loss": 1.3573,
+      "step": 178
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 5.035747104899739e-05,
+      "loss": 1.4175,
+      "step": 179
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 4.928761361302269e-05,
+      "loss": 1.3781,
+      "step": 180
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 4.822551401713821e-05,
+      "loss": 1.466,
+      "step": 181
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 4.717133473839163e-05,
+      "loss": 1.4341,
+      "step": 182
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 4.612523704220264e-05,
+      "loss": 1.4537,
+      "step": 183
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.5087380957692784e-05,
+      "loss": 1.4164,
+      "step": 184
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 4.405792525320469e-05,
+      "loss": 1.4499,
+      "step": 185
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.303702741201431e-05,
+      "loss": 1.4119,
+      "step": 186
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 4.2024843608239264e-05,
+      "loss": 1.4465,
+      "step": 187
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 1.89795982837677,
+      "eval_runtime": 16.6564,
+      "eval_samples_per_second": 2.702,
+      "eval_steps_per_second": 1.381,
+      "step": 187
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 4.1021528682948066e-05,
+      "loss": 1.3902,
+      "step": 188
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 4.0027236120472724e-05,
+      "loss": 1.4166,
+      "step": 189
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 3.904211802492922e-05,
+      "loss": 1.4699,
+      "step": 190
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 3.806632509694915e-05,
+      "loss": 1.4347,
+      "step": 191
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 3.7100006610625784e-05,
+      "loss": 1.4858,
+      "step": 192
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 3.614331039067854e-05,
+      "loss": 1.5347,
+      "step": 193
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 3.519638278983948e-05,
+      "loss": 1.4619,
+      "step": 194
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 3.425936866646419e-05,
+      "loss": 1.3705,
+      "step": 195
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 3.333241136237206e-05,
+      "loss": 1.4704,
+      "step": 196
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 3.2415652680918264e-05,
+      "loss": 1.5148,
+      "step": 197
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 3.150923286530089e-05,
+      "loss": 1.3734,
+      "step": 198
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 264,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 66,
+  "total_flos": 2.601613393794171e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-198/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:136f5d9dd7fc2fabff6e80dd48a495a4cd5f0ab1af46964ed1af4cae2dae0a30
+size 5368

checkpoint-264/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: NousResearch/Llama-2-7b-hf
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-264/adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "NousResearch/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "q_proj",
+    "v_proj",
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-264/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d9a4091d2f49e380ddfed0a19fe0875af996325d0b479b6526f069edc80a284
+size 319876032

checkpoint-264/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc6d6c6e1bd68e74152e6a06eb79143a9b58137b71e5730ccef2240b5369bfcb
+size 160736532

checkpoint-264/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7bbb045e13babd3fb0b725a290a0af694c2b8d2291519ad624a6ceb46494f6b6
+size 14244

checkpoint-264/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4834c2a43acd42004d05f9c2506492d0eab6431c2e7158f20b8516b9a177b83
+size 1064

checkpoint-264/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1733 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.9022556390977443,
+  "eval_steps": 17,
+  "global_step": 264,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.8373,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 1.8333783149719238,
+      "eval_runtime": 16.5756,
+      "eval_samples_per_second": 2.715,
+      "eval_steps_per_second": 1.388,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 1.8119,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 1.8301,
+      "step": 3
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 8e-05,
+      "loss": 1.7976,
+      "step": 4
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 1.853,
+      "step": 5
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00012,
+      "loss": 1.7586,
+      "step": 6
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00014,
+      "loss": 1.8416,
+      "step": 7
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00016,
+      "loss": 1.7755,
+      "step": 8
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018,
+      "loss": 1.804,
+      "step": 9
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002,
+      "loss": 1.7858,
+      "step": 10
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001999923511388017,
+      "loss": 1.7311,
+      "step": 11
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001999694057253083,
+      "loss": 1.7012,
+      "step": 12
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019993116726964554,
+      "loss": 1.742,
+      "step": 13
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019987764162142613,
+      "loss": 1.7209,
+      "step": 14
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001998088369688552,
+      "loss": 1.7578,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019972476383747748,
+      "loss": 1.6906,
+      "step": 16
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001996254350885672,
+      "loss": 1.738,
+      "step": 17
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.754616141319275,
+      "eval_runtime": 16.6372,
+      "eval_samples_per_second": 2.705,
+      "eval_steps_per_second": 1.382,
+      "step": 17
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001995108659171607,
+      "loss": 1.7976,
+      "step": 18
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019938107384973166,
+      "loss": 1.7781,
+      "step": 19
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019923607874151032,
+      "loss": 1.7737,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019907590277344582,
+      "loss": 1.6662,
+      "step": 21
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019890057044881306,
+      "loss": 1.7869,
+      "step": 22
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001987101085894644,
+      "loss": 1.6646,
+      "step": 23
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019850454633172631,
+      "loss": 1.7482,
+      "step": 24
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001982839151219424,
+      "loss": 1.7112,
+      "step": 25
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019804824871166255,
+      "loss": 1.7083,
+      "step": 26
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019779758315248004,
+      "loss": 1.728,
+      "step": 27
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019753195679051628,
+      "loss": 1.7292,
+      "step": 28
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001972514102605547,
+      "loss": 1.6902,
+      "step": 29
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019695598647982468,
+      "loss": 1.7432,
+      "step": 30
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00019664573064143604,
+      "loss": 1.7258,
+      "step": 31
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019632069020746572,
+      "loss": 1.7363,
+      "step": 32
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019598091490169694,
+      "loss": 1.7142,
+      "step": 33
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019562645670201276,
+      "loss": 1.704,
+      "step": 34
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 1.7388739585876465,
+      "eval_runtime": 16.5955,
+      "eval_samples_per_second": 2.712,
+      "eval_steps_per_second": 1.386,
+      "step": 34
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001952573698324446,
+      "loss": 1.7393,
+      "step": 35
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019487371075487713,
+      "loss": 1.7568,
+      "step": 36
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000194475538160411,
+      "loss": 1.7445,
+      "step": 37
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001940629129603844,
+      "loss": 1.6595,
+      "step": 38
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00019363589827705492,
+      "loss": 1.7288,
+      "step": 39
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019319455943394347,
+      "loss": 1.6342,
+      "step": 40
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019273896394584103,
+      "loss": 1.7066,
+      "step": 41
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019226918150848068,
+      "loss": 1.6558,
+      "step": 42
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019178528398787551,
+      "loss": 1.6756,
+      "step": 43
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00019128734540932495,
+      "loss": 1.7146,
+      "step": 44
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00019077544194609042,
+      "loss": 1.7043,
+      "step": 45
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019024965190774263,
+      "loss": 1.6396,
+      "step": 46
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00018971005572818213,
+      "loss": 1.648,
+      "step": 47
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00018915673595333444,
+      "loss": 1.5988,
+      "step": 48
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00018858977722852275,
+      "loss": 1.7394,
+      "step": 49
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00018800926628551886,
+      "loss": 1.6362,
+      "step": 50
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00018741529192927526,
+      "loss": 1.6762,
+      "step": 51
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.7409569025039673,
+      "eval_runtime": 16.7147,
+      "eval_samples_per_second": 2.692,
+      "eval_steps_per_second": 1.376,
+      "step": 51
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00018680794502434018,
+      "loss": 1.6534,
+      "step": 52
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00018618731848095706,
+      "loss": 1.6551,
+      "step": 53
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00018555350724085162,
+      "loss": 1.6297,
+      "step": 54
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001849066082627079,
+      "loss": 1.7152,
+      "step": 55
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00018424672050733576,
+      "loss": 1.7062,
+      "step": 56
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00018357394492253215,
+      "loss": 1.5742,
+      "step": 57
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00018288838442763838,
+      "loss": 1.6424,
+      "step": 58
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00018219014389779585,
+      "loss": 1.6544,
+      "step": 59
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018147933014790244,
+      "loss": 1.6179,
+      "step": 60
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001807560519162724,
+      "loss": 1.6823,
+      "step": 61
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00018002041984800174,
+      "loss": 1.5845,
+      "step": 62
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00017927254647804209,
+      "loss": 1.6177,
+      "step": 63
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0001785125462139855,
+      "loss": 1.6196,
+      "step": 64
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00017774053531856258,
+      "loss": 1.6526,
+      "step": 65
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.000176956631891857,
+      "loss": 1.5792,
+      "step": 66
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 0.00017616095585323878,
+      "loss": 1.6652,
+      "step": 67
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00017535362892301954,
+      "loss": 1.5981,
+      "step": 68
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 1.7487449645996094,
+      "eval_runtime": 16.6837,
+      "eval_samples_per_second": 2.697,
+      "eval_steps_per_second": 1.379,
+      "step": 68
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.0001745347746038319,
+      "loss": 1.6053,
+      "step": 69
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 0.0001737045181617364,
+      "loss": 1.6171,
+      "step": 70
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00017286298660705875,
+      "loss": 1.631,
+      "step": 71
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 0.00017201030867496005,
+      "loss": 1.5558,
+      "step": 72
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 0.00017114661480574332,
+      "loss": 1.5339,
+      "step": 73
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.000170272037124899,
+      "loss": 1.6548,
+      "step": 74
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00016938670942289293,
+      "loss": 1.5526,
+      "step": 75
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00016849076713469914,
+      "loss": 1.5565,
+      "step": 76
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.00016758434731908178,
+      "loss": 1.5604,
+      "step": 77
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 0.00016666758863762793,
+      "loss": 1.5654,
+      "step": 78
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 0.00016574063133353582,
+      "loss": 1.5967,
+      "step": 79
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.00016480361721016054,
+      "loss": 1.5608,
+      "step": 80
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 0.00016385668960932143,
+      "loss": 1.5801,
+      "step": 81
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00016289999338937427,
+      "loss": 1.5472,
+      "step": 82
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.00016193367490305088,
+      "loss": 1.5126,
+      "step": 83
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 0.00016095788197507081,
+      "loss": 1.5896,
+      "step": 84
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00015997276387952732,
+      "loss": 1.5593,
+      "step": 85
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 1.79562509059906,
+      "eval_runtime": 16.6149,
+      "eval_samples_per_second": 2.708,
+      "eval_steps_per_second": 1.384,
+      "step": 85
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 0.00015897847131705195,
+      "loss": 1.5616,
+      "step": 86
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 0.00015797515639176074,
+      "loss": 1.596,
+      "step": 87
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001569629725879857,
+      "loss": 1.595,
+      "step": 88
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00015594207474679532,
+      "loss": 1.5442,
+      "step": 89
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 0.00015491261904230727,
+      "loss": 1.5812,
+      "step": 90
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00015387476295779736,
+      "loss": 1.5214,
+      "step": 91
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 0.00015282866526160837,
+      "loss": 1.5403,
+      "step": 92
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 0.0001517744859828618,
+      "loss": 1.4751,
+      "step": 93
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00015071238638697732,
+      "loss": 1.5861,
+      "step": 94
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00014964252895100264,
+      "loss": 1.5334,
+      "step": 95
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00014856507733875836,
+      "loss": 1.4884,
+      "step": 96
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.00014748019637580114,
+      "loss": 1.5297,
+      "step": 97
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00014638805202420895,
+      "loss": 1.4725,
+      "step": 98
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 0.0001452888113571929,
+      "loss": 1.4849,
+      "step": 99
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.0001441826425335387,
+      "loss": 1.5654,
+      "step": 100
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 0.00014306971477188223,
+      "loss": 1.6349,
+      "step": 101
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.0001419501983248229,
+      "loss": 1.4415,
+      "step": 102
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 1.7860450744628906,
+      "eval_runtime": 16.6303,
+      "eval_samples_per_second": 2.706,
+      "eval_steps_per_second": 1.383,
+      "step": 102
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.00014082426445287903,
+      "loss": 1.5735,
+      "step": 103
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 0.00013969208539828872,
+      "loss": 1.5328,
+      "step": 104
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00013855383435866077,
+      "loss": 1.5466,
+      "step": 105
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00013740968546047935,
+      "loss": 1.5861,
+      "step": 106
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 0.0001362598137324667,
+      "loss": 1.5449,
+      "step": 107
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.00013510439507880776,
+      "loss": 1.6084,
+      "step": 108
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00013394360625224068,
+      "loss": 1.5249,
+      "step": 109
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013277762482701767,
+      "loss": 1.5594,
+      "step": 110
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00013160662917174044,
+      "loss": 1.5877,
+      "step": 111
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 0.0001304307984220736,
+      "loss": 1.4964,
+      "step": 112
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 0.0001292503124533411,
+      "loss": 1.4538,
+      "step": 113
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001280653518530093,
+      "loss": 1.4454,
+      "step": 114
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 0.00012687609789306144,
+      "loss": 1.4512,
+      "step": 115
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001256827325022668,
+      "loss": 1.38,
+      "step": 116
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00012448543823835015,
+      "loss": 1.5207,
+      "step": 117
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00012328439826006415,
+      "loss": 1.4787,
+      "step": 118
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001220797962991706,
+      "loss": 1.6098,
+      "step": 119
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 1.8019659519195557,
+      "eval_runtime": 16.646,
+      "eval_samples_per_second": 2.703,
+      "eval_steps_per_second": 1.382,
+      "step": 119
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 0.00012087181663233354,
+      "loss": 1.4798,
+      "step": 120
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00011966064405292887,
+      "loss": 1.5248,
+      "step": 121
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.0001184464638427756,
+      "loss": 1.4309,
+      "step": 122
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00011722946174379168,
+      "loss": 1.4477,
+      "step": 123
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00011600982392957978,
+      "loss": 1.4843,
+      "step": 124
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011478773697694691,
+      "loss": 1.4298,
+      "step": 125
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 0.00011356338783736255,
+      "loss": 1.4775,
+      "step": 126
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 0.0001123369638083593,
+      "loss": 1.5159,
+      "step": 127
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00011110865250488047,
+      "loss": 1.3696,
+      "step": 128
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010987864183057943,
+      "loss": 1.4259,
+      "step": 129
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00010864711994907458,
+      "loss": 1.5685,
+      "step": 130
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.00010741427525516463,
+      "loss": 1.4997,
+      "step": 131
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 0.00010618029634600843,
+      "loss": 1.4718,
+      "step": 132
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010494537199227392,
+      "loss": 1.5824,
+      "step": 133
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00010370969110926052,
+      "loss": 1.5392,
+      "step": 134
+    },
+    {
+      "epoch": 2.01,
+      "learning_rate": 0.0001024734427279995,
+      "loss": 1.5724,
+      "step": 135
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00010123681596633629,
+      "loss": 1.5458,
+      "step": 136
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 1.852607250213623,
+      "eval_runtime": 16.6761,
+      "eval_samples_per_second": 2.698,
+      "eval_steps_per_second": 1.379,
+      "step": 136
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.0001,
+      "loss": 1.3,
+      "step": 137
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 9.876318403366372e-05,
+      "loss": 1.4398,
+      "step": 138
+    },
+    {
+      "epoch": 2.05,
+      "learning_rate": 9.75265572720005e-05,
+      "loss": 1.4742,
+      "step": 139
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 9.629030889073949e-05,
+      "loss": 1.428,
+      "step": 140
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 9.505462800772612e-05,
+      "loss": 1.4537,
+      "step": 141
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.38197036539916e-05,
+      "loss": 1.4288,
+      "step": 142
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 9.25857247448354e-05,
+      "loss": 1.4514,
+      "step": 143
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 9.135288005092546e-05,
+      "loss": 1.3794,
+      "step": 144
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 9.012135816942058e-05,
+      "loss": 1.4776,
+      "step": 145
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.889134749511955e-05,
+      "loss": 1.3694,
+      "step": 146
+    },
+    {
+      "epoch": 2.17,
+      "learning_rate": 8.76630361916407e-05,
+      "loss": 1.4572,
+      "step": 147
+    },
+    {
+      "epoch": 2.18,
+      "learning_rate": 8.643661216263743e-05,
+      "loss": 1.4835,
+      "step": 148
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 8.521226302305311e-05,
+      "loss": 1.3926,
+      "step": 149
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 8.399017607042025e-05,
+      "loss": 1.367,
+      "step": 150
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 8.277053825620836e-05,
+      "loss": 1.426,
+      "step": 151
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 8.155353615722442e-05,
+      "loss": 1.3622,
+      "step": 152
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 8.033935594707117e-05,
+      "loss": 1.4358,
+      "step": 153
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 1.855719804763794,
+      "eval_runtime": 16.6995,
+      "eval_samples_per_second": 2.695,
+      "eval_steps_per_second": 1.377,
+      "step": 153
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.91281833676665e-05,
+      "loss": 1.5099,
+      "step": 154
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 7.79202037008294e-05,
+      "loss": 1.4327,
+      "step": 155
+    },
+    {
+      "epoch": 2.3,
+      "learning_rate": 7.671560173993587e-05,
+      "loss": 1.4428,
+      "step": 156
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 7.551456176164989e-05,
+      "loss": 1.4409,
+      "step": 157
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 7.431726749773322e-05,
+      "loss": 1.4845,
+      "step": 158
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 7.312390210693863e-05,
+      "loss": 1.4052,
+      "step": 159
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 7.193464814699073e-05,
+      "loss": 1.4676,
+      "step": 160
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 7.07496875466589e-05,
+      "loss": 1.4254,
+      "step": 161
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.956920157792639e-05,
+      "loss": 1.5144,
+      "step": 162
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 6.839337082825955e-05,
+      "loss": 1.4274,
+      "step": 163
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 6.722237517298232e-05,
+      "loss": 1.3997,
+      "step": 164
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 6.605639374775934e-05,
+      "loss": 1.4757,
+      "step": 165
+    },
+    {
+      "epoch": 2.45,
+      "learning_rate": 6.489560492119225e-05,
+      "loss": 1.424,
+      "step": 166
+    },
+    {
+      "epoch": 2.47,
+      "learning_rate": 6.374018626753331e-05,
+      "loss": 1.434,
+      "step": 167
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 6.259031453952069e-05,
+      "loss": 1.4782,
+      "step": 168
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 6.144616564133928e-05,
+      "loss": 1.3865,
+      "step": 169
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 6.0307914601711305e-05,
+      "loss": 1.4608,
+      "step": 170
+    },
+    {
+      "epoch": 2.51,
+      "eval_loss": 1.884387731552124,
+      "eval_runtime": 16.8363,
+      "eval_samples_per_second": 2.673,
+      "eval_steps_per_second": 1.366,
+      "step": 170
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 5.917573554712097e-05,
+      "loss": 1.5069,
+      "step": 171
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 5.8049801675177115e-05,
+      "loss": 1.4022,
+      "step": 172
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 5.693028522811783e-05,
+      "loss": 1.4741,
+      "step": 173
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 5.5817357466461336e-05,
+      "loss": 1.527,
+      "step": 174
+    },
+    {
+      "epoch": 2.59,
+      "learning_rate": 5.471118864280716e-05,
+      "loss": 1.4785,
+      "step": 175
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 5.361194797579108e-05,
+      "loss": 1.4178,
+      "step": 176
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 5.251980362419886e-05,
+      "loss": 1.4574,
+      "step": 177
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 5.1434922661241635e-05,
+      "loss": 1.3573,
+      "step": 178
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 5.035747104899739e-05,
+      "loss": 1.4175,
+      "step": 179
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 4.928761361302269e-05,
+      "loss": 1.3781,
+      "step": 180
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 4.822551401713821e-05,
+      "loss": 1.466,
+      "step": 181
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 4.717133473839163e-05,
+      "loss": 1.4341,
+      "step": 182
+    },
+    {
+      "epoch": 2.71,
+      "learning_rate": 4.612523704220264e-05,
+      "loss": 1.4537,
+      "step": 183
+    },
+    {
+      "epoch": 2.72,
+      "learning_rate": 4.5087380957692784e-05,
+      "loss": 1.4164,
+      "step": 184
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 4.405792525320469e-05,
+      "loss": 1.4499,
+      "step": 185
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.303702741201431e-05,
+      "loss": 1.4119,
+      "step": 186
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 4.2024843608239264e-05,
+      "loss": 1.4465,
+      "step": 187
+    },
+    {
+      "epoch": 2.77,
+      "eval_loss": 1.89795982837677,
+      "eval_runtime": 16.6564,
+      "eval_samples_per_second": 2.702,
+      "eval_steps_per_second": 1.381,
+      "step": 187
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 4.1021528682948066e-05,
+      "loss": 1.3902,
+      "step": 188
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 4.0027236120472724e-05,
+      "loss": 1.4166,
+      "step": 189
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 3.904211802492922e-05,
+      "loss": 1.4699,
+      "step": 190
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 3.806632509694915e-05,
+      "loss": 1.4347,
+      "step": 191
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 3.7100006610625784e-05,
+      "loss": 1.4858,
+      "step": 192
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 3.614331039067854e-05,
+      "loss": 1.5347,
+      "step": 193
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 3.519638278983948e-05,
+      "loss": 1.4619,
+      "step": 194
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 3.425936866646419e-05,
+      "loss": 1.3705,
+      "step": 195
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 3.333241136237206e-05,
+      "loss": 1.4704,
+      "step": 196
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 3.2415652680918264e-05,
+      "loss": 1.5148,
+      "step": 197
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 3.150923286530089e-05,
+      "loss": 1.3734,
+      "step": 198
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 3.0613290577107115e-05,
+      "loss": 1.5199,
+      "step": 199
+    },
+    {
+      "epoch": 2.96,
+      "learning_rate": 2.9727962875101e-05,
+      "loss": 1.3702,
+      "step": 200
+    },
+    {
+      "epoch": 2.98,
+      "learning_rate": 2.8853385194256676e-05,
+      "loss": 1.4275,
+      "step": 201
+    },
+    {
+      "epoch": 2.99,
+      "learning_rate": 2.798969132503997e-05,
+      "loss": 1.4594,
+      "step": 202
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 2.713701339294129e-05,
+      "loss": 1.3708,
+      "step": 203
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 2.6295481838263626e-05,
+      "loss": 1.3986,
+      "step": 204
+    },
+    {
+      "epoch": 3.02,
+      "eval_loss": 1.899756669998169,
+      "eval_runtime": 16.6316,
+      "eval_samples_per_second": 2.706,
+      "eval_steps_per_second": 1.383,
+      "step": 204
+    },
+    {
+      "epoch": 3.02,
+      "learning_rate": 2.5465225396168134e-05,
+      "loss": 1.3877,
+      "step": 205
+    },
+    {
+      "epoch": 3.03,
+      "learning_rate": 2.4646371076980457e-05,
+      "loss": 1.3825,
+      "step": 206
+    },
+    {
+      "epoch": 3.05,
+      "learning_rate": 2.3839044146761225e-05,
+      "loss": 1.3739,
+      "step": 207
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 2.3043368108143047e-05,
+      "loss": 1.3736,
+      "step": 208
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 2.2259464681437404e-05,
+      "loss": 1.4417,
+      "step": 209
+    },
+    {
+      "epoch": 3.09,
+      "learning_rate": 2.1487453786014512e-05,
+      "loss": 1.4593,
+      "step": 210
+    },
+    {
+      "epoch": 3.11,
+      "learning_rate": 2.072745352195794e-05,
+      "loss": 1.4009,
+      "step": 211
+    },
+    {
+      "epoch": 3.12,
+      "learning_rate": 1.997958015199829e-05,
+      "loss": 1.3663,
+      "step": 212
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 1.9243948083727626e-05,
+      "loss": 1.4188,
+      "step": 213
+    },
+    {
+      "epoch": 3.15,
+      "learning_rate": 1.8520669852097573e-05,
+      "loss": 1.3341,
+      "step": 214
+    },
+    {
+      "epoch": 3.17,
+      "learning_rate": 1.7809856102204147e-05,
+      "loss": 1.4234,
+      "step": 215
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 1.7111615572361628e-05,
+      "loss": 1.4341,
+      "step": 216
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 1.642605507746786e-05,
+      "loss": 1.448,
+      "step": 217
+    },
+    {
+      "epoch": 3.21,
+      "learning_rate": 1.5753279492664262e-05,
+      "loss": 1.4208,
+      "step": 218
+    },
+    {
+      "epoch": 3.23,
+      "learning_rate": 1.509339173729214e-05,
+      "loss": 1.457,
+      "step": 219
+    },
+    {
+      "epoch": 3.24,
+      "learning_rate": 1.4446492759148411e-05,
+      "loss": 1.394,
+      "step": 220
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 1.381268151904298e-05,
+      "loss": 1.5333,
+      "step": 221
+    },
+    {
+      "epoch": 3.26,
+      "eval_loss": 1.919499158859253,
+      "eval_runtime": 16.6053,
+      "eval_samples_per_second": 2.71,
+      "eval_steps_per_second": 1.385,
+      "step": 221
+    },
+    {
+      "epoch": 3.27,
+      "learning_rate": 1.319205497565983e-05,
+      "loss": 1.3947,
+      "step": 222
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 1.2584708070724737e-05,
+      "loss": 1.3737,
+      "step": 223
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 1.1990733714481184e-05,
+      "loss": 1.3943,
+      "step": 224
+    },
+    {
+      "epoch": 3.32,
+      "learning_rate": 1.1410222771477274e-05,
+      "loss": 1.3721,
+      "step": 225
+    },
+    {
+      "epoch": 3.33,
+      "learning_rate": 1.0843264046665557e-05,
+      "loss": 1.4123,
+      "step": 226
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 1.0289944271817897e-05,
+      "loss": 1.4098,
+      "step": 227
+    },
+    {
+      "epoch": 3.36,
+      "learning_rate": 9.750348092257367e-06,
+      "loss": 1.4299,
+      "step": 228
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 9.224558053909615e-06,
+      "loss": 1.3941,
+      "step": 229
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 8.712654590675085e-06,
+      "loss": 1.4251,
+      "step": 230
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 8.21471601212449e-06,
+      "loss": 1.3037,
+      "step": 231
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 7.730818491519343e-06,
+      "loss": 1.4521,
+      "step": 232
+    },
+    {
+      "epoch": 3.44,
+      "learning_rate": 7.261036054158965e-06,
+      "loss": 1.3687,
+      "step": 233
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 6.805440566056553e-06,
+      "loss": 1.3911,
+      "step": 234
+    },
+    {
+      "epoch": 3.47,
+      "learning_rate": 6.364101722945082e-06,
+      "loss": 1.3972,
+      "step": 235
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 5.937087039615619e-06,
+      "loss": 1.3924,
+      "step": 236
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 5.524461839589013e-06,
+      "loss": 1.3982,
+      "step": 237
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 5.126289245122906e-06,
+      "loss": 1.3554,
+      "step": 238
+    },
+    {
+      "epoch": 3.51,
+      "eval_loss": 1.9183728694915771,
+      "eval_runtime": 16.6428,
+      "eval_samples_per_second": 2.704,
+      "eval_steps_per_second": 1.382,
+      "step": 238
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 4.742630167555428e-06,
+      "loss": 1.3683,
+      "step": 239
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 4.37354329798726e-06,
+      "loss": 1.3383,
+      "step": 240
+    },
+    {
+      "epoch": 3.56,
+      "learning_rate": 4.019085098303077e-06,
+      "loss": 1.4202,
+      "step": 241
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 3.679309792534291e-06,
+      "loss": 1.3848,
+      "step": 242
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 3.3542693585639662e-06,
+      "loss": 1.4633,
+      "step": 243
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 3.0440135201753374e-06,
+      "loss": 1.4707,
+      "step": 244
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 2.7485897394453064e-06,
+      "loss": 1.4323,
+      "step": 245
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 2.468043209483739e-06,
+      "loss": 1.4162,
+      "step": 246
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 2.2024168475199614e-06,
+      "loss": 1.3303,
+      "step": 247
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 1.951751288337467e-06,
+      "loss": 1.4434,
+      "step": 248
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 1.7160848780576334e-06,
+      "loss": 1.4763,
+      "step": 249
+    },
+    {
+      "epoch": 3.69,
+      "learning_rate": 1.4954536682736719e-06,
+      "loss": 1.4284,
+      "step": 250
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 1.289891410535593e-06,
+      "loss": 1.5079,
+      "step": 251
+    },
+    {
+      "epoch": 3.72,
+      "learning_rate": 1.0994295511869257e-06,
+      "loss": 1.4137,
+      "step": 252
+    },
+    {
+      "epoch": 3.74,
+      "learning_rate": 9.240972265541991e-07,
+      "loss": 1.3556,
+      "step": 253
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 7.639212584897082e-07,
+      "loss": 1.4151,
+      "step": 254
+    },
+    {
+      "epoch": 3.77,
+      "learning_rate": 6.189261502683619e-07,
+      "loss": 1.3287,
+      "step": 255
+    },
+    {
+      "epoch": 3.77,
+      "eval_loss": 1.9195834398269653,
+      "eval_runtime": 16.6389,
+      "eval_samples_per_second": 2.705,
+      "eval_steps_per_second": 1.382,
+      "step": 255
+    },
+    {
+      "epoch": 3.78,
+      "learning_rate": 4.891340828393487e-07,
+      "loss": 1.3766,
+      "step": 256
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 3.745649114328065e-07,
+      "loss": 1.3085,
+      "step": 257
+    },
+    {
+      "epoch": 3.81,
+      "learning_rate": 2.752361625225297e-07,
+      "loss": 1.4159,
+      "step": 258
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 1.9116303114480315e-07,
+      "loss": 1.3997,
+      "step": 259
+    },
+    {
+      "epoch": 3.84,
+      "learning_rate": 1.2235837857387246e-07,
+      "loss": 1.4732,
+      "step": 260
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 6.883273035447335e-08,
+      "loss": 1.3565,
+      "step": 261
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 3.059427469168652e-08,
+      "loss": 1.3847,
+      "step": 262
+    },
+    {
+      "epoch": 3.89,
+      "learning_rate": 7.648861198306101e-09,
+      "loss": 1.383,
+      "step": 263
+    },
+    {
+      "epoch": 3.9,
+      "learning_rate": 0.0,
+      "loss": 1.451,
+      "step": 264
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 264,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 66,
+  "total_flos": 3.469365681806377e+17,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-264/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:136f5d9dd7fc2fabff6e80dd48a495a4cd5f0ab1af46964ed1af4cae2dae0a30
+size 5368

checkpoint-66/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: NousResearch/Llama-2-7b-hf
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-66/adapter_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "NousResearch/Llama-2-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "q_proj",
+    "v_proj",
+    "up_proj",
+    "o_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-66/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:293bc1bb75662c53df4e8eaa15a15400cb41bca80e5ca6028bf8ee42fd99748c
+size 319876032

checkpoint-66/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5b292502e6f520123ac2cd6906e20417a4eb68548a3b79dd1c995828ef65992c
+size 160736084

checkpoint-66/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c7dfa3a8d99d16570b86a87a9ffb0ff303326ff3e5c03953a2bda24ff05b5093
+size 14244

checkpoint-66/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a08818356f220fd441067cc050505206bfaa7b03066efdd4ac677099eabbfe5a
+size 1064

checkpoint-66/trainer_state.json ADDED Viewed

	@@ -0,0 +1,449 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9924812030075187,
+  "eval_steps": 17,
+  "global_step": 66,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 2e-05,
+      "loss": 1.8373,
+      "step": 1
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 1.8333783149719238,
+      "eval_runtime": 16.5756,
+      "eval_samples_per_second": 2.715,
+      "eval_steps_per_second": 1.388,
+      "step": 1
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4e-05,
+      "loss": 1.8119,
+      "step": 2
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 6e-05,
+      "loss": 1.8301,
+      "step": 3
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 8e-05,
+      "loss": 1.7976,
+      "step": 4
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 0.0001,
+      "loss": 1.853,
+      "step": 5
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00012,
+      "loss": 1.7586,
+      "step": 6
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00014,
+      "loss": 1.8416,
+      "step": 7
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00016,
+      "loss": 1.7755,
+      "step": 8
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00018,
+      "loss": 1.804,
+      "step": 9
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 0.0002,
+      "loss": 1.7858,
+      "step": 10
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.0001999923511388017,
+      "loss": 1.7311,
+      "step": 11
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.0001999694057253083,
+      "loss": 1.7012,
+      "step": 12
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 0.00019993116726964554,
+      "loss": 1.742,
+      "step": 13
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.00019987764162142613,
+      "loss": 1.7209,
+      "step": 14
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001998088369688552,
+      "loss": 1.7578,
+      "step": 15
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 0.00019972476383747748,
+      "loss": 1.6906,
+      "step": 16
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001996254350885672,
+      "loss": 1.738,
+      "step": 17
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 1.754616141319275,
+      "eval_runtime": 16.6372,
+      "eval_samples_per_second": 2.705,
+      "eval_steps_per_second": 1.382,
+      "step": 17
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 0.0001995108659171607,
+      "loss": 1.7976,
+      "step": 18
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.00019938107384973166,
+      "loss": 1.7781,
+      "step": 19
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019923607874151032,
+      "loss": 1.7737,
+      "step": 20
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019907590277344582,
+      "loss": 1.6662,
+      "step": 21
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.00019890057044881306,
+      "loss": 1.7869,
+      "step": 22
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0001987101085894644,
+      "loss": 1.6646,
+      "step": 23
+    },
+    {
+      "epoch": 0.36,
+      "learning_rate": 0.00019850454633172631,
+      "loss": 1.7482,
+      "step": 24
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 0.0001982839151219424,
+      "loss": 1.7112,
+      "step": 25
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019804824871166255,
+      "loss": 1.7083,
+      "step": 26
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00019779758315248004,
+      "loss": 1.728,
+      "step": 27
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.00019753195679051628,
+      "loss": 1.7292,
+      "step": 28
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.0001972514102605547,
+      "loss": 1.6902,
+      "step": 29
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 0.00019695598647982468,
+      "loss": 1.7432,
+      "step": 30
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.00019664573064143604,
+      "loss": 1.7258,
+      "step": 31
+    },
+    {
+      "epoch": 0.48,
+      "learning_rate": 0.00019632069020746572,
+      "loss": 1.7363,
+      "step": 32
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 0.00019598091490169694,
+      "loss": 1.7142,
+      "step": 33
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019562645670201276,
+      "loss": 1.704,
+      "step": 34
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 1.7388739585876465,
+      "eval_runtime": 16.5955,
+      "eval_samples_per_second": 2.712,
+      "eval_steps_per_second": 1.386,
+      "step": 34
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.0001952573698324446,
+      "loss": 1.7393,
+      "step": 35
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.00019487371075487713,
+      "loss": 1.7568,
+      "step": 36
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.000194475538160411,
+      "loss": 1.7445,
+      "step": 37
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 0.0001940629129603844,
+      "loss": 1.6595,
+      "step": 38
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 0.00019363589827705492,
+      "loss": 1.7288,
+      "step": 39
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019319455943394347,
+      "loss": 1.6342,
+      "step": 40
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 0.00019273896394584103,
+      "loss": 1.7066,
+      "step": 41
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019226918150848068,
+      "loss": 1.6558,
+      "step": 42
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019178528398787551,
+      "loss": 1.6756,
+      "step": 43
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 0.00019128734540932495,
+      "loss": 1.7146,
+      "step": 44
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 0.00019077544194609042,
+      "loss": 1.7043,
+      "step": 45
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019024965190774263,
+      "loss": 1.6396,
+      "step": 46
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 0.00018971005572818213,
+      "loss": 1.648,
+      "step": 47
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00018915673595333444,
+      "loss": 1.5988,
+      "step": 48
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00018858977722852275,
+      "loss": 1.7394,
+      "step": 49
+    },
+    {
+      "epoch": 0.75,
+      "learning_rate": 0.00018800926628551886,
+      "loss": 1.6362,
+      "step": 50
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00018741529192927526,
+      "loss": 1.6762,
+      "step": 51
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 1.7409569025039673,
+      "eval_runtime": 16.7147,
+      "eval_samples_per_second": 2.692,
+      "eval_steps_per_second": 1.376,
+      "step": 51
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 0.00018680794502434018,
+      "loss": 1.6534,
+      "step": 52
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 0.00018618731848095706,
+      "loss": 1.6551,
+      "step": 53
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00018555350724085162,
+      "loss": 1.6297,
+      "step": 54
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.0001849066082627079,
+      "loss": 1.7152,
+      "step": 55
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00018424672050733576,
+      "loss": 1.7062,
+      "step": 56
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00018357394492253215,
+      "loss": 1.5742,
+      "step": 57
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00018288838442763838,
+      "loss": 1.6424,
+      "step": 58
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 0.00018219014389779585,
+      "loss": 1.6544,
+      "step": 59
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018147933014790244,
+      "loss": 1.6179,
+      "step": 60
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 0.0001807560519162724,
+      "loss": 1.6823,
+      "step": 61
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00018002041984800174,
+      "loss": 1.5845,
+      "step": 62
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00017927254647804209,
+      "loss": 1.6177,
+      "step": 63
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 0.0001785125462139855,
+      "loss": 1.6196,
+      "step": 64
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00017774053531856258,
+      "loss": 1.6526,
+      "step": 65
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.000176956631891857,
+      "loss": 1.5792,
+      "step": 66
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 264,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 66,
+  "total_flos": 8.67752288012206e+16,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-66/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:136f5d9dd7fc2fabff6e80dd48a495a4cd5f0ab1af46964ed1af4cae2dae0a30
+size 5368

config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "_name_or_path": "NousResearch/Llama-2-7b-hf",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 11008,
+  "max_position_embeddings": 4096,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "pad_token_id": 0,
+  "pretraining_tp": 1,
+  "quantization_config": {
+    "_load_in_4bit": false,
+    "_load_in_8bit": true,
+    "bnb_4bit_compute_dtype": "float32",
+    "bnb_4bit_quant_type": "fp4",
+    "bnb_4bit_use_double_quant": false,
+    "llm_int8_enable_fp32_cpu_offload": false,
+    "llm_int8_has_fp16_weight": false,
+    "llm_int8_skip_modules": null,
+    "llm_int8_threshold": 6.0,
+    "load_in_4bit": false,
+    "load_in_8bit": true,
+    "quant_method": "bitsandbytes"
+  },
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float16",
+  "transformers_version": "4.38.0.dev0",
+  "use_cache": false,
+  "vocab_size": 32000
+}

runs/Feb20_06-57-12_16b73cf3ac9a/events.out.tfevents.1708412232.16b73cf3ac9a.583.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4999b8c64b318a7cba734dadce56cb844d8313310d511aad36d2240ced08e6e7
+size 51301

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<unk>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": false,
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "use_fast": true
+}