Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

README.md +204 -0
adapter_config.json +26 -0
adapter_model.safetensors +3 -0
all_results.json +11 -0
eval_results.json +7 -0
train_results.json +7 -0
trainer_state.json +1350 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: google/flan-t5-base
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.7.1

adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "google/flan-t5-base",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.2,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v",
+    "q"
+  ],
+  "task_type": "SEQ_2_SEQ_LM"
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b3296fcff514fee3ff0d0fd95872e9945028e0a5171922fe4e120f7bc1da6fb
+size 7098016

all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.05540305748581886,
+    "eval_runtime": 27.2595,
+    "eval_samples_per_second": 288.266,
+    "eval_steps_per_second": 18.049,
+    "train_loss": 0.09247852528257068,
+    "train_runtime": 8790.0948,
+    "train_samples_per_second": 80.453,
+    "train_steps_per_second": 5.028
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 10.0,
+    "eval_loss": 0.05540305748581886,
+    "eval_runtime": 27.2595,
+    "eval_samples_per_second": 288.266,
+    "eval_steps_per_second": 18.049
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 10.0,
+    "train_loss": 0.09247852528257068,
+    "train_runtime": 8790.0948,
+    "train_samples_per_second": 80.453,
+    "train_steps_per_second": 5.028
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1350 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 44200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.4132317900657654,
+      "learning_rate": 0.0009886877828054299,
+      "loss": 0.285,
+      "step": 500
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.12178385257720947,
+      "eval_runtime": 27.3061,
+      "eval_samples_per_second": 287.774,
+      "eval_steps_per_second": 18.018,
+      "step": 500
+    },
+    {
+      "epoch": 0.23,
+      "grad_norm": 0.4537642300128937,
+      "learning_rate": 0.0009773755656108597,
+      "loss": 0.1782,
+      "step": 1000
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.10424336045980453,
+      "eval_runtime": 27.2202,
+      "eval_samples_per_second": 288.683,
+      "eval_steps_per_second": 18.075,
+      "step": 1000
+    },
+    {
+      "epoch": 0.34,
+      "grad_norm": 0.4927336871623993,
+      "learning_rate": 0.0009660633484162896,
+      "loss": 0.1623,
+      "step": 1500
+    },
+    {
+      "epoch": 0.34,
+      "eval_loss": 0.1000167727470398,
+      "eval_runtime": 27.2235,
+      "eval_samples_per_second": 288.648,
+      "eval_steps_per_second": 18.073,
+      "step": 1500
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.3784632682800293,
+      "learning_rate": 0.0009547511312217196,
+      "loss": 0.1487,
+      "step": 2000
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.10203839093446732,
+      "eval_runtime": 27.2422,
+      "eval_samples_per_second": 288.45,
+      "eval_steps_per_second": 18.06,
+      "step": 2000
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.4409666955471039,
+      "learning_rate": 0.0009434389140271493,
+      "loss": 0.1419,
+      "step": 2500
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.0881214290857315,
+      "eval_runtime": 27.2438,
+      "eval_samples_per_second": 288.432,
+      "eval_steps_per_second": 18.059,
+      "step": 2500
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.33156296610832214,
+      "learning_rate": 0.0009321266968325792,
+      "loss": 0.1371,
+      "step": 3000
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.08762603253126144,
+      "eval_runtime": 27.2331,
+      "eval_samples_per_second": 288.546,
+      "eval_steps_per_second": 18.066,
+      "step": 3000
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.26063305139541626,
+      "learning_rate": 0.000920814479638009,
+      "loss": 0.1366,
+      "step": 3500
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.08680489659309387,
+      "eval_runtime": 27.2296,
+      "eval_samples_per_second": 288.583,
+      "eval_steps_per_second": 18.069,
+      "step": 3500
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 0.6152302622795105,
+      "learning_rate": 0.0009095022624434389,
+      "loss": 0.1288,
+      "step": 4000
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.08397215604782104,
+      "eval_runtime": 27.259,
+      "eval_samples_per_second": 288.272,
+      "eval_steps_per_second": 18.049,
+      "step": 4000
+    },
+    {
+      "epoch": 1.02,
+      "grad_norm": 0.20703616738319397,
+      "learning_rate": 0.0008981900452488689,
+      "loss": 0.1329,
+      "step": 4500
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 0.0818256288766861,
+      "eval_runtime": 27.2728,
+      "eval_samples_per_second": 288.126,
+      "eval_steps_per_second": 18.04,
+      "step": 4500
+    },
+    {
+      "epoch": 1.13,
+      "grad_norm": 0.47000011801719666,
+      "learning_rate": 0.0008868778280542986,
+      "loss": 0.1221,
+      "step": 5000
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.08076580613851547,
+      "eval_runtime": 27.2281,
+      "eval_samples_per_second": 288.599,
+      "eval_steps_per_second": 18.07,
+      "step": 5000
+    },
+    {
+      "epoch": 1.24,
+      "grad_norm": 0.3874566853046417,
+      "learning_rate": 0.0008755656108597285,
+      "loss": 0.1202,
+      "step": 5500
+    },
+    {
+      "epoch": 1.24,
+      "eval_loss": 0.08285848051309586,
+      "eval_runtime": 27.2548,
+      "eval_samples_per_second": 288.316,
+      "eval_steps_per_second": 18.052,
+      "step": 5500
+    },
+    {
+      "epoch": 1.36,
+      "grad_norm": 0.35874509811401367,
+      "learning_rate": 0.0008642533936651585,
+      "loss": 0.1186,
+      "step": 6000
+    },
+    {
+      "epoch": 1.36,
+      "eval_loss": 0.081941157579422,
+      "eval_runtime": 27.2605,
+      "eval_samples_per_second": 288.256,
+      "eval_steps_per_second": 18.048,
+      "step": 6000
+    },
+    {
+      "epoch": 1.47,
+      "grad_norm": 0.34497329592704773,
+      "learning_rate": 0.0008529411764705882,
+      "loss": 0.1163,
+      "step": 6500
+    },
+    {
+      "epoch": 1.47,
+      "eval_loss": 0.07750312983989716,
+      "eval_runtime": 27.2737,
+      "eval_samples_per_second": 288.116,
+      "eval_steps_per_second": 18.039,
+      "step": 6500
+    },
+    {
+      "epoch": 1.58,
+      "grad_norm": 0.34537777304649353,
+      "learning_rate": 0.0008416289592760181,
+      "loss": 0.1213,
+      "step": 7000
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.0756232738494873,
+      "eval_runtime": 27.2421,
+      "eval_samples_per_second": 288.451,
+      "eval_steps_per_second": 18.06,
+      "step": 7000
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 0.31827136874198914,
+      "learning_rate": 0.000830316742081448,
+      "loss": 0.1169,
+      "step": 7500
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.07395777106285095,
+      "eval_runtime": 27.2385,
+      "eval_samples_per_second": 288.489,
+      "eval_steps_per_second": 18.063,
+      "step": 7500
+    },
+    {
+      "epoch": 1.81,
+      "grad_norm": 0.43441176414489746,
+      "learning_rate": 0.0008190045248868778,
+      "loss": 0.1151,
+      "step": 8000
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.08032752573490143,
+      "eval_runtime": 27.2392,
+      "eval_samples_per_second": 288.481,
+      "eval_steps_per_second": 18.062,
+      "step": 8000
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.403935968875885,
+      "learning_rate": 0.0008076923076923078,
+      "loss": 0.1162,
+      "step": 8500
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.07349220663309097,
+      "eval_runtime": 27.2543,
+      "eval_samples_per_second": 288.322,
+      "eval_steps_per_second": 18.052,
+      "step": 8500
+    },
+    {
+      "epoch": 2.04,
+      "grad_norm": 0.2286953330039978,
+      "learning_rate": 0.0007963800904977375,
+      "loss": 0.1157,
+      "step": 9000
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 0.07655400782823563,
+      "eval_runtime": 27.2562,
+      "eval_samples_per_second": 288.301,
+      "eval_steps_per_second": 18.051,
+      "step": 9000
+    },
+    {
+      "epoch": 2.15,
+      "grad_norm": 0.2294893115758896,
+      "learning_rate": 0.0007850678733031674,
+      "loss": 0.1121,
+      "step": 9500
+    },
+    {
+      "epoch": 2.15,
+      "eval_loss": 0.07088885456323624,
+      "eval_runtime": 27.2467,
+      "eval_samples_per_second": 288.402,
+      "eval_steps_per_second": 18.057,
+      "step": 9500
+    },
+    {
+      "epoch": 2.26,
+      "grad_norm": 0.44981372356414795,
+      "learning_rate": 0.0007737556561085974,
+      "loss": 0.1073,
+      "step": 10000
+    },
+    {
+      "epoch": 2.26,
+      "eval_loss": 0.07331141084432602,
+      "eval_runtime": 27.2427,
+      "eval_samples_per_second": 288.445,
+      "eval_steps_per_second": 18.06,
+      "step": 10000
+    },
+    {
+      "epoch": 2.38,
+      "grad_norm": 0.4742676019668579,
+      "learning_rate": 0.0007624434389140271,
+      "loss": 0.1063,
+      "step": 10500
+    },
+    {
+      "epoch": 2.38,
+      "eval_loss": 0.07561534643173218,
+      "eval_runtime": 27.2233,
+      "eval_samples_per_second": 288.65,
+      "eval_steps_per_second": 18.073,
+      "step": 10500
+    },
+    {
+      "epoch": 2.49,
+      "grad_norm": 0.4676545262336731,
+      "learning_rate": 0.0007511312217194571,
+      "loss": 0.1109,
+      "step": 11000
+    },
+    {
+      "epoch": 2.49,
+      "eval_loss": 0.07197986543178558,
+      "eval_runtime": 27.2211,
+      "eval_samples_per_second": 288.673,
+      "eval_steps_per_second": 18.074,
+      "step": 11000
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 0.5688673257827759,
+      "learning_rate": 0.0007398190045248869,
+      "loss": 0.1072,
+      "step": 11500
+    },
+    {
+      "epoch": 2.6,
+      "eval_loss": 0.07261210680007935,
+      "eval_runtime": 27.2328,
+      "eval_samples_per_second": 288.549,
+      "eval_steps_per_second": 18.066,
+      "step": 11500
+    },
+    {
+      "epoch": 2.71,
+      "grad_norm": 0.24911655485630035,
+      "learning_rate": 0.0007285067873303167,
+      "loss": 0.1055,
+      "step": 12000
+    },
+    {
+      "epoch": 2.71,
+      "eval_loss": 0.06898481398820877,
+      "eval_runtime": 27.2378,
+      "eval_samples_per_second": 288.496,
+      "eval_steps_per_second": 18.063,
+      "step": 12000
+    },
+    {
+      "epoch": 2.83,
+      "grad_norm": 0.4301845133304596,
+      "learning_rate": 0.0007171945701357467,
+      "loss": 0.1004,
+      "step": 12500
+    },
+    {
+      "epoch": 2.83,
+      "eval_loss": 0.06929654628038406,
+      "eval_runtime": 27.2358,
+      "eval_samples_per_second": 288.517,
+      "eval_steps_per_second": 18.064,
+      "step": 12500
+    },
+    {
+      "epoch": 2.94,
+      "grad_norm": 0.4303476810455322,
+      "learning_rate": 0.0007058823529411765,
+      "loss": 0.0995,
+      "step": 13000
+    },
+    {
+      "epoch": 2.94,
+      "eval_loss": 0.06872580200433731,
+      "eval_runtime": 27.2296,
+      "eval_samples_per_second": 288.583,
+      "eval_steps_per_second": 18.069,
+      "step": 13000
+    },
+    {
+      "epoch": 3.05,
+      "grad_norm": 0.3978405296802521,
+      "learning_rate": 0.0006945701357466064,
+      "loss": 0.0999,
+      "step": 13500
+    },
+    {
+      "epoch": 3.05,
+      "eval_loss": 0.06932587921619415,
+      "eval_runtime": 27.2271,
+      "eval_samples_per_second": 288.609,
+      "eval_steps_per_second": 18.07,
+      "step": 13500
+    },
+    {
+      "epoch": 3.17,
+      "grad_norm": 0.26857316493988037,
+      "learning_rate": 0.0006832579185520362,
+      "loss": 0.0959,
+      "step": 14000
+    },
+    {
+      "epoch": 3.17,
+      "eval_loss": 0.07186341285705566,
+      "eval_runtime": 27.231,
+      "eval_samples_per_second": 288.569,
+      "eval_steps_per_second": 18.068,
+      "step": 14000
+    },
+    {
+      "epoch": 3.28,
+      "grad_norm": 0.4276795983314514,
+      "learning_rate": 0.0006719457013574661,
+      "loss": 0.0982,
+      "step": 14500
+    },
+    {
+      "epoch": 3.28,
+      "eval_loss": 0.07152236998081207,
+      "eval_runtime": 27.2215,
+      "eval_samples_per_second": 288.669,
+      "eval_steps_per_second": 18.074,
+      "step": 14500
+    },
+    {
+      "epoch": 3.39,
+      "grad_norm": 0.41015538573265076,
+      "learning_rate": 0.000660633484162896,
+      "loss": 0.0969,
+      "step": 15000
+    },
+    {
+      "epoch": 3.39,
+      "eval_loss": 0.07108399271965027,
+      "eval_runtime": 27.2286,
+      "eval_samples_per_second": 288.594,
+      "eval_steps_per_second": 18.069,
+      "step": 15000
+    },
+    {
+      "epoch": 3.51,
+      "grad_norm": 0.180690735578537,
+      "learning_rate": 0.0006493212669683258,
+      "loss": 0.0995,
+      "step": 15500
+    },
+    {
+      "epoch": 3.51,
+      "eval_loss": 0.06466764211654663,
+      "eval_runtime": 27.2483,
+      "eval_samples_per_second": 288.385,
+      "eval_steps_per_second": 18.056,
+      "step": 15500
+    },
+    {
+      "epoch": 3.62,
+      "grad_norm": 0.2916184067726135,
+      "learning_rate": 0.0006380090497737556,
+      "loss": 0.0962,
+      "step": 16000
+    },
+    {
+      "epoch": 3.62,
+      "eval_loss": 0.06967472285032272,
+      "eval_runtime": 27.2534,
+      "eval_samples_per_second": 288.331,
+      "eval_steps_per_second": 18.053,
+      "step": 16000
+    },
+    {
+      "epoch": 3.73,
+      "grad_norm": 0.444690465927124,
+      "learning_rate": 0.0006266968325791855,
+      "loss": 0.0959,
+      "step": 16500
+    },
+    {
+      "epoch": 3.73,
+      "eval_loss": 0.06753501296043396,
+      "eval_runtime": 27.2523,
+      "eval_samples_per_second": 288.343,
+      "eval_steps_per_second": 18.054,
+      "step": 16500
+    },
+    {
+      "epoch": 3.85,
+      "grad_norm": 0.3559369146823883,
+      "learning_rate": 0.0006153846153846154,
+      "loss": 0.0949,
+      "step": 17000
+    },
+    {
+      "epoch": 3.85,
+      "eval_loss": 0.06987947970628738,
+      "eval_runtime": 27.2447,
+      "eval_samples_per_second": 288.423,
+      "eval_steps_per_second": 18.059,
+      "step": 17000
+    },
+    {
+      "epoch": 3.96,
+      "grad_norm": 0.3376706838607788,
+      "learning_rate": 0.0006040723981900453,
+      "loss": 0.096,
+      "step": 17500
+    },
+    {
+      "epoch": 3.96,
+      "eval_loss": 0.06431511789560318,
+      "eval_runtime": 27.2316,
+      "eval_samples_per_second": 288.562,
+      "eval_steps_per_second": 18.067,
+      "step": 17500
+    },
+    {
+      "epoch": 4.07,
+      "grad_norm": 0.4778081476688385,
+      "learning_rate": 0.0005927601809954751,
+      "loss": 0.0916,
+      "step": 18000
+    },
+    {
+      "epoch": 4.07,
+      "eval_loss": 0.06719387322664261,
+      "eval_runtime": 27.1935,
+      "eval_samples_per_second": 288.967,
+      "eval_steps_per_second": 18.093,
+      "step": 18000
+    },
+    {
+      "epoch": 4.19,
+      "grad_norm": 0.6138429641723633,
+      "learning_rate": 0.000581447963800905,
+      "loss": 0.0887,
+      "step": 18500
+    },
+    {
+      "epoch": 4.19,
+      "eval_loss": 0.06378566473722458,
+      "eval_runtime": 27.2223,
+      "eval_samples_per_second": 288.661,
+      "eval_steps_per_second": 18.073,
+      "step": 18500
+    },
+    {
+      "epoch": 4.3,
+      "grad_norm": 0.48502928018569946,
+      "learning_rate": 0.0005701357466063349,
+      "loss": 0.0902,
+      "step": 19000
+    },
+    {
+      "epoch": 4.3,
+      "eval_loss": 0.06466159969568253,
+      "eval_runtime": 27.224,
+      "eval_samples_per_second": 288.642,
+      "eval_steps_per_second": 18.072,
+      "step": 19000
+    },
+    {
+      "epoch": 4.41,
+      "grad_norm": 0.28751033544540405,
+      "learning_rate": 0.0005588235294117647,
+      "loss": 0.089,
+      "step": 19500
+    },
+    {
+      "epoch": 4.41,
+      "eval_loss": 0.06292453408241272,
+      "eval_runtime": 27.2238,
+      "eval_samples_per_second": 288.644,
+      "eval_steps_per_second": 18.072,
+      "step": 19500
+    },
+    {
+      "epoch": 4.52,
+      "grad_norm": 0.2429145723581314,
+      "learning_rate": 0.0005475113122171947,
+      "loss": 0.0881,
+      "step": 20000
+    },
+    {
+      "epoch": 4.52,
+      "eval_loss": 0.0646950751543045,
+      "eval_runtime": 27.2322,
+      "eval_samples_per_second": 288.555,
+      "eval_steps_per_second": 18.067,
+      "step": 20000
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 0.13486433029174805,
+      "learning_rate": 0.0005361990950226244,
+      "loss": 0.0875,
+      "step": 20500
+    },
+    {
+      "epoch": 4.64,
+      "eval_loss": 0.06334567815065384,
+      "eval_runtime": 27.2229,
+      "eval_samples_per_second": 288.654,
+      "eval_steps_per_second": 18.073,
+      "step": 20500
+    },
+    {
+      "epoch": 4.75,
+      "grad_norm": 0.2922358512878418,
+      "learning_rate": 0.0005248868778280543,
+      "loss": 0.0894,
+      "step": 21000
+    },
+    {
+      "epoch": 4.75,
+      "eval_loss": 0.06537148356437683,
+      "eval_runtime": 27.2312,
+      "eval_samples_per_second": 288.566,
+      "eval_steps_per_second": 18.068,
+      "step": 21000
+    },
+    {
+      "epoch": 4.86,
+      "grad_norm": 0.22684411704540253,
+      "learning_rate": 0.0005135746606334842,
+      "loss": 0.0901,
+      "step": 21500
+    },
+    {
+      "epoch": 4.86,
+      "eval_loss": 0.06314302235841751,
+      "eval_runtime": 27.237,
+      "eval_samples_per_second": 288.504,
+      "eval_steps_per_second": 18.064,
+      "step": 21500
+    },
+    {
+      "epoch": 4.98,
+      "grad_norm": 0.641290545463562,
+      "learning_rate": 0.000502262443438914,
+      "loss": 0.0898,
+      "step": 22000
+    },
+    {
+      "epoch": 4.98,
+      "eval_loss": 0.06266883760690689,
+      "eval_runtime": 27.2238,
+      "eval_samples_per_second": 288.645,
+      "eval_steps_per_second": 18.072,
+      "step": 22000
+    },
+    {
+      "epoch": 5.09,
+      "grad_norm": 0.31225764751434326,
+      "learning_rate": 0.0004909502262443439,
+      "loss": 0.0813,
+      "step": 22500
+    },
+    {
+      "epoch": 5.09,
+      "eval_loss": 0.06273192167282104,
+      "eval_runtime": 27.2277,
+      "eval_samples_per_second": 288.603,
+      "eval_steps_per_second": 18.07,
+      "step": 22500
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 0.44664525985717773,
+      "learning_rate": 0.0004796380090497738,
+      "loss": 0.083,
+      "step": 23000
+    },
+    {
+      "epoch": 5.2,
+      "eval_loss": 0.06290117651224136,
+      "eval_runtime": 27.2049,
+      "eval_samples_per_second": 288.845,
+      "eval_steps_per_second": 18.085,
+      "step": 23000
+    },
+    {
+      "epoch": 5.32,
+      "grad_norm": 0.1560264378786087,
+      "learning_rate": 0.00046832579185520365,
+      "loss": 0.0833,
+      "step": 23500
+    },
+    {
+      "epoch": 5.32,
+      "eval_loss": 0.06229640915989876,
+      "eval_runtime": 27.2246,
+      "eval_samples_per_second": 288.636,
+      "eval_steps_per_second": 18.072,
+      "step": 23500
+    },
+    {
+      "epoch": 5.43,
+      "grad_norm": 0.11389543116092682,
+      "learning_rate": 0.00045701357466063346,
+      "loss": 0.083,
+      "step": 24000
+    },
+    {
+      "epoch": 5.43,
+      "eval_loss": 0.06498704105615616,
+      "eval_runtime": 27.2302,
+      "eval_samples_per_second": 288.576,
+      "eval_steps_per_second": 18.068,
+      "step": 24000
+    },
+    {
+      "epoch": 5.54,
+      "grad_norm": 0.6757131814956665,
+      "learning_rate": 0.0004457013574660634,
+      "loss": 0.0825,
+      "step": 24500
+    },
+    {
+      "epoch": 5.54,
+      "eval_loss": 0.06173526123166084,
+      "eval_runtime": 27.2094,
+      "eval_samples_per_second": 288.798,
+      "eval_steps_per_second": 18.082,
+      "step": 24500
+    },
+    {
+      "epoch": 5.66,
+      "grad_norm": 0.2726614475250244,
+      "learning_rate": 0.00043438914027149324,
+      "loss": 0.0829,
+      "step": 25000
+    },
+    {
+      "epoch": 5.66,
+      "eval_loss": 0.060302384197711945,
+      "eval_runtime": 27.2049,
+      "eval_samples_per_second": 288.845,
+      "eval_steps_per_second": 18.085,
+      "step": 25000
+    },
+    {
+      "epoch": 5.77,
+      "grad_norm": 0.8743285536766052,
+      "learning_rate": 0.0004230769230769231,
+      "loss": 0.0818,
+      "step": 25500
+    },
+    {
+      "epoch": 5.77,
+      "eval_loss": 0.062085919082164764,
+      "eval_runtime": 27.2011,
+      "eval_samples_per_second": 288.885,
+      "eval_steps_per_second": 18.087,
+      "step": 25500
+    },
+    {
+      "epoch": 5.88,
+      "grad_norm": 0.2872491478919983,
+      "learning_rate": 0.0004117647058823529,
+      "loss": 0.0807,
+      "step": 26000
+    },
+    {
+      "epoch": 5.88,
+      "eval_loss": 0.059214599430561066,
+      "eval_runtime": 27.2158,
+      "eval_samples_per_second": 288.73,
+      "eval_steps_per_second": 18.078,
+      "step": 26000
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.5603688955307007,
+      "learning_rate": 0.0004004524886877828,
+      "loss": 0.082,
+      "step": 26500
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.05830477178096771,
+      "eval_runtime": 27.2102,
+      "eval_samples_per_second": 288.788,
+      "eval_steps_per_second": 18.081,
+      "step": 26500
+    },
+    {
+      "epoch": 6.11,
+      "grad_norm": 0.4404628574848175,
+      "learning_rate": 0.0003891402714932127,
+      "loss": 0.0763,
+      "step": 27000
+    },
+    {
+      "epoch": 6.11,
+      "eval_loss": 0.05895010381937027,
+      "eval_runtime": 27.2169,
+      "eval_samples_per_second": 288.718,
+      "eval_steps_per_second": 18.077,
+      "step": 27000
+    },
+    {
+      "epoch": 6.22,
+      "grad_norm": 0.27021318674087524,
+      "learning_rate": 0.00037782805429864254,
+      "loss": 0.0781,
+      "step": 27500
+    },
+    {
+      "epoch": 6.22,
+      "eval_loss": 0.06117743253707886,
+      "eval_runtime": 27.2077,
+      "eval_samples_per_second": 288.815,
+      "eval_steps_per_second": 18.083,
+      "step": 27500
+    },
+    {
+      "epoch": 6.33,
+      "grad_norm": 0.5952714681625366,
+      "learning_rate": 0.0003665158371040724,
+      "loss": 0.077,
+      "step": 28000
+    },
+    {
+      "epoch": 6.33,
+      "eval_loss": 0.06172608584165573,
+      "eval_runtime": 27.2143,
+      "eval_samples_per_second": 288.745,
+      "eval_steps_per_second": 18.079,
+      "step": 28000
+    },
+    {
+      "epoch": 6.45,
+      "grad_norm": 0.11397124826908112,
+      "learning_rate": 0.00035520361990950226,
+      "loss": 0.0763,
+      "step": 28500
+    },
+    {
+      "epoch": 6.45,
+      "eval_loss": 0.06007913500070572,
+      "eval_runtime": 27.1971,
+      "eval_samples_per_second": 288.928,
+      "eval_steps_per_second": 18.09,
+      "step": 28500
+    },
+    {
+      "epoch": 6.56,
+      "grad_norm": 0.18584699928760529,
+      "learning_rate": 0.0003438914027149321,
+      "loss": 0.0741,
+      "step": 29000
+    },
+    {
+      "epoch": 6.56,
+      "eval_loss": 0.05769050493836403,
+      "eval_runtime": 27.1856,
+      "eval_samples_per_second": 289.05,
+      "eval_steps_per_second": 18.098,
+      "step": 29000
+    },
+    {
+      "epoch": 6.67,
+      "grad_norm": 0.26046234369277954,
+      "learning_rate": 0.000332579185520362,
+      "loss": 0.0746,
+      "step": 29500
+    },
+    {
+      "epoch": 6.67,
+      "eval_loss": 0.05827530845999718,
+      "eval_runtime": 27.1863,
+      "eval_samples_per_second": 289.043,
+      "eval_steps_per_second": 18.097,
+      "step": 29500
+    },
+    {
+      "epoch": 6.79,
+      "grad_norm": 0.12222661823034286,
+      "learning_rate": 0.0003212669683257919,
+      "loss": 0.0735,
+      "step": 30000
+    },
+    {
+      "epoch": 6.79,
+      "eval_loss": 0.05913107842206955,
+      "eval_runtime": 27.1918,
+      "eval_samples_per_second": 288.984,
+      "eval_steps_per_second": 18.094,
+      "step": 30000
+    },
+    {
+      "epoch": 6.9,
+      "grad_norm": 0.28610703349113464,
+      "learning_rate": 0.0003099547511312217,
+      "loss": 0.0726,
+      "step": 30500
+    },
+    {
+      "epoch": 6.9,
+      "eval_loss": 0.05818793550133705,
+      "eval_runtime": 27.2089,
+      "eval_samples_per_second": 288.803,
+      "eval_steps_per_second": 18.082,
+      "step": 30500
+    },
+    {
+      "epoch": 7.01,
+      "grad_norm": 0.3682945966720581,
+      "learning_rate": 0.00029864253393665157,
+      "loss": 0.0741,
+      "step": 31000
+    },
+    {
+      "epoch": 7.01,
+      "eval_loss": 0.05868174880743027,
+      "eval_runtime": 27.1916,
+      "eval_samples_per_second": 288.986,
+      "eval_steps_per_second": 18.094,
+      "step": 31000
+    },
+    {
+      "epoch": 7.13,
+      "grad_norm": 0.16477471590042114,
+      "learning_rate": 0.00028733031674208143,
+      "loss": 0.0715,
+      "step": 31500
+    },
+    {
+      "epoch": 7.13,
+      "eval_loss": 0.05955735221505165,
+      "eval_runtime": 27.1945,
+      "eval_samples_per_second": 288.955,
+      "eval_steps_per_second": 18.092,
+      "step": 31500
+    },
+    {
+      "epoch": 7.24,
+      "grad_norm": 0.24769556522369385,
+      "learning_rate": 0.00027601809954751135,
+      "loss": 0.07,
+      "step": 32000
+    },
+    {
+      "epoch": 7.24,
+      "eval_loss": 0.057150740176439285,
+      "eval_runtime": 27.1825,
+      "eval_samples_per_second": 289.083,
+      "eval_steps_per_second": 18.1,
+      "step": 32000
+    },
+    {
+      "epoch": 7.35,
+      "grad_norm": 0.3199273347854614,
+      "learning_rate": 0.0002647058823529412,
+      "loss": 0.0686,
+      "step": 32500
+    },
+    {
+      "epoch": 7.35,
+      "eval_loss": 0.05786846950650215,
+      "eval_runtime": 27.2001,
+      "eval_samples_per_second": 288.896,
+      "eval_steps_per_second": 18.088,
+      "step": 32500
+    },
+    {
+      "epoch": 7.47,
+      "grad_norm": 0.3163066804409027,
+      "learning_rate": 0.000253393665158371,
+      "loss": 0.0703,
+      "step": 33000
+    },
+    {
+      "epoch": 7.47,
+      "eval_loss": 0.05759541690349579,
+      "eval_runtime": 27.1994,
+      "eval_samples_per_second": 288.904,
+      "eval_steps_per_second": 18.089,
+      "step": 33000
+    },
+    {
+      "epoch": 7.58,
+      "grad_norm": 0.4390794336795807,
+      "learning_rate": 0.0002420814479638009,
+      "loss": 0.0694,
+      "step": 33500
+    },
+    {
+      "epoch": 7.58,
+      "eval_loss": 0.06044788658618927,
+      "eval_runtime": 27.2196,
+      "eval_samples_per_second": 288.689,
+      "eval_steps_per_second": 18.075,
+      "step": 33500
+    },
+    {
+      "epoch": 7.69,
+      "grad_norm": 0.19777078926563263,
+      "learning_rate": 0.0002307692307692308,
+      "loss": 0.0683,
+      "step": 34000
+    },
+    {
+      "epoch": 7.69,
+      "eval_loss": 0.05697755515575409,
+      "eval_runtime": 27.2282,
+      "eval_samples_per_second": 288.598,
+      "eval_steps_per_second": 18.069,
+      "step": 34000
+    },
+    {
+      "epoch": 7.81,
+      "grad_norm": 0.418797105550766,
+      "learning_rate": 0.00021945701357466062,
+      "loss": 0.0712,
+      "step": 34500
+    },
+    {
+      "epoch": 7.81,
+      "eval_loss": 0.05598929896950722,
+      "eval_runtime": 27.2203,
+      "eval_samples_per_second": 288.682,
+      "eval_steps_per_second": 18.075,
+      "step": 34500
+    },
+    {
+      "epoch": 7.92,
+      "grad_norm": 0.4459814727306366,
+      "learning_rate": 0.0002081447963800905,
+      "loss": 0.0672,
+      "step": 35000
+    },
+    {
+      "epoch": 7.92,
+      "eval_loss": 0.05849257484078407,
+      "eval_runtime": 27.2068,
+      "eval_samples_per_second": 288.825,
+      "eval_steps_per_second": 18.084,
+      "step": 35000
+    },
+    {
+      "epoch": 8.03,
+      "grad_norm": 0.2313721477985382,
+      "learning_rate": 0.00019683257918552037,
+      "loss": 0.0675,
+      "step": 35500
+    },
+    {
+      "epoch": 8.03,
+      "eval_loss": 0.05674152076244354,
+      "eval_runtime": 27.2055,
+      "eval_samples_per_second": 288.839,
+      "eval_steps_per_second": 18.085,
+      "step": 35500
+    },
+    {
+      "epoch": 8.14,
+      "grad_norm": 0.2439548671245575,
+      "learning_rate": 0.00018552036199095024,
+      "loss": 0.0651,
+      "step": 36000
+    },
+    {
+      "epoch": 8.14,
+      "eval_loss": 0.05658886954188347,
+      "eval_runtime": 27.2233,
+      "eval_samples_per_second": 288.65,
+      "eval_steps_per_second": 18.073,
+      "step": 36000
+    },
+    {
+      "epoch": 8.26,
+      "grad_norm": 0.3285837471485138,
+      "learning_rate": 0.0001742081447963801,
+      "loss": 0.0648,
+      "step": 36500
+    },
+    {
+      "epoch": 8.26,
+      "eval_loss": 0.05789176747202873,
+      "eval_runtime": 27.2295,
+      "eval_samples_per_second": 288.584,
+      "eval_steps_per_second": 18.069,
+      "step": 36500
+    },
+    {
+      "epoch": 8.37,
+      "grad_norm": 0.3167458772659302,
+      "learning_rate": 0.00016289592760180996,
+      "loss": 0.067,
+      "step": 37000
+    },
+    {
+      "epoch": 8.37,
+      "eval_loss": 0.05568605288863182,
+      "eval_runtime": 27.2118,
+      "eval_samples_per_second": 288.772,
+      "eval_steps_per_second": 18.08,
+      "step": 37000
+    },
+    {
+      "epoch": 8.48,
+      "grad_norm": 0.1530727595090866,
+      "learning_rate": 0.00015158371040723982,
+      "loss": 0.0651,
+      "step": 37500
+    },
+    {
+      "epoch": 8.48,
+      "eval_loss": 0.057902004569768906,
+      "eval_runtime": 27.219,
+      "eval_samples_per_second": 288.695,
+      "eval_steps_per_second": 18.076,
+      "step": 37500
+    },
+    {
+      "epoch": 8.6,
+      "grad_norm": 0.21044595539569855,
+      "learning_rate": 0.00014027149321266968,
+      "loss": 0.0666,
+      "step": 38000
+    },
+    {
+      "epoch": 8.6,
+      "eval_loss": 0.05458011105656624,
+      "eval_runtime": 27.2446,
+      "eval_samples_per_second": 288.424,
+      "eval_steps_per_second": 18.059,
+      "step": 38000
+    },
+    {
+      "epoch": 8.71,
+      "grad_norm": 0.23161017894744873,
+      "learning_rate": 0.00012895927601809957,
+      "loss": 0.0635,
+      "step": 38500
+    },
+    {
+      "epoch": 8.71,
+      "eval_loss": 0.056671272963285446,
+      "eval_runtime": 27.2141,
+      "eval_samples_per_second": 288.748,
+      "eval_steps_per_second": 18.079,
+      "step": 38500
+    },
+    {
+      "epoch": 8.82,
+      "grad_norm": 0.14228539168834686,
+      "learning_rate": 0.00011764705882352942,
+      "loss": 0.0622,
+      "step": 39000
+    },
+    {
+      "epoch": 8.82,
+      "eval_loss": 0.05409713461995125,
+      "eval_runtime": 27.229,
+      "eval_samples_per_second": 288.59,
+      "eval_steps_per_second": 18.069,
+      "step": 39000
+    },
+    {
+      "epoch": 8.94,
+      "grad_norm": 0.19111554324626923,
+      "learning_rate": 0.00010633484162895928,
+      "loss": 0.0645,
+      "step": 39500
+    },
+    {
+      "epoch": 8.94,
+      "eval_loss": 0.05430610105395317,
+      "eval_runtime": 27.2287,
+      "eval_samples_per_second": 288.592,
+      "eval_steps_per_second": 18.069,
+      "step": 39500
+    },
+    {
+      "epoch": 9.05,
+      "grad_norm": 0.1508806049823761,
+      "learning_rate": 9.502262443438914e-05,
+      "loss": 0.0631,
+      "step": 40000
+    },
+    {
+      "epoch": 9.05,
+      "eval_loss": 0.05481436848640442,
+      "eval_runtime": 27.2111,
+      "eval_samples_per_second": 288.78,
+      "eval_steps_per_second": 18.081,
+      "step": 40000
+    },
+    {
+      "epoch": 9.16,
+      "grad_norm": 0.26917019486427307,
+      "learning_rate": 8.3710407239819e-05,
+      "loss": 0.063,
+      "step": 40500
+    },
+    {
+      "epoch": 9.16,
+      "eval_loss": 0.056788042187690735,
+      "eval_runtime": 27.2329,
+      "eval_samples_per_second": 288.548,
+      "eval_steps_per_second": 18.066,
+      "step": 40500
+    },
+    {
+      "epoch": 9.28,
+      "grad_norm": 0.26919251680374146,
+      "learning_rate": 7.239819004524887e-05,
+      "loss": 0.0614,
+      "step": 41000
+    },
+    {
+      "epoch": 9.28,
+      "eval_loss": 0.056851934641599655,
+      "eval_runtime": 27.2442,
+      "eval_samples_per_second": 288.428,
+      "eval_steps_per_second": 18.059,
+      "step": 41000
+    },
+    {
+      "epoch": 9.39,
+      "grad_norm": 0.222616046667099,
+      "learning_rate": 6.108597285067873e-05,
+      "loss": 0.0588,
+      "step": 41500
+    },
+    {
+      "epoch": 9.39,
+      "eval_loss": 0.05487231910228729,
+      "eval_runtime": 27.23,
+      "eval_samples_per_second": 288.579,
+      "eval_steps_per_second": 18.068,
+      "step": 41500
+    },
+    {
+      "epoch": 9.5,
+      "grad_norm": 0.2073131799697876,
+      "learning_rate": 4.9773755656108595e-05,
+      "loss": 0.0616,
+      "step": 42000
+    },
+    {
+      "epoch": 9.5,
+      "eval_loss": 0.05528046563267708,
+      "eval_runtime": 27.2327,
+      "eval_samples_per_second": 288.55,
+      "eval_steps_per_second": 18.067,
+      "step": 42000
+    },
+    {
+      "epoch": 9.62,
+      "grad_norm": 0.19287574291229248,
+      "learning_rate": 3.846153846153846e-05,
+      "loss": 0.0609,
+      "step": 42500
+    },
+    {
+      "epoch": 9.62,
+      "eval_loss": 0.055462516844272614,
+      "eval_runtime": 27.2342,
+      "eval_samples_per_second": 288.535,
+      "eval_steps_per_second": 18.066,
+      "step": 42500
+    },
+    {
+      "epoch": 9.73,
+      "grad_norm": 0.11690975725650787,
+      "learning_rate": 2.7149321266968327e-05,
+      "loss": 0.0612,
+      "step": 43000
+    },
+    {
+      "epoch": 9.73,
+      "eval_loss": 0.055802907794713974,
+      "eval_runtime": 27.263,
+      "eval_samples_per_second": 288.23,
+      "eval_steps_per_second": 18.046,
+      "step": 43000
+    },
+    {
+      "epoch": 9.84,
+      "grad_norm": 0.19802606105804443,
+      "learning_rate": 1.583710407239819e-05,
+      "loss": 0.0588,
+      "step": 43500
+    },
+    {
+      "epoch": 9.84,
+      "eval_loss": 0.05586336553096771,
+      "eval_runtime": 27.2516,
+      "eval_samples_per_second": 288.35,
+      "eval_steps_per_second": 18.054,
+      "step": 43500
+    },
+    {
+      "epoch": 9.95,
+      "grad_norm": 0.29080289602279663,
+      "learning_rate": 4.5248868778280546e-06,
+      "loss": 0.0622,
+      "step": 44000
+    },
+    {
+      "epoch": 9.95,
+      "eval_loss": 0.05555348098278046,
+      "eval_runtime": 27.2559,
+      "eval_samples_per_second": 288.305,
+      "eval_steps_per_second": 18.051,
+      "step": 44000
+    },
+    {
+      "epoch": 10.0,
+      "step": 44200,
+      "total_flos": 8.389179359649792e+16,
+      "train_loss": 0.09247852528257068,
+      "train_runtime": 8790.0948,
+      "train_samples_per_second": 80.453,
+      "train_steps_per_second": 5.028
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 44200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 8.389179359649792e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:234fbc7bf0d159d3d95c13453a8fd74105a86470e2dc26447e416696e864f884
+size 5048