End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +479 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: OH_original_wo_slimorca_550k
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # OH_original_wo_slimorca_550k
-This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5386

 base_model: meta-llama/Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: OH_original_wo_slimorca_550k
 # OH_original_wo_slimorca_550k
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B](https://huggingface.co/meta-llama/Llama-3.1-8B) on the mlfoundations-dev/OH_original_wo_slimorca_550k dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.5386

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.5386124849319458,
+    "eval_runtime": 67.4227,
+    "eval_samples_per_second": 78.712,
+    "eval_steps_per_second": 0.623,
+    "total_flos": 989528252743680.0,
+    "train_loss": 0.5134775242224563,
+    "train_runtime": 10543.3353,
+    "train_samples_per_second": 28.688,
+    "train_steps_per_second": 0.056
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 3.0,
+    "eval_loss": 0.5386124849319458,
+    "eval_runtime": 67.4227,
+    "eval_samples_per_second": 78.712,
+    "eval_steps_per_second": 0.623
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "total_flos": 989528252743680.0,
+    "train_loss": 0.5134775242224563,
+    "train_runtime": 10543.3353,
+    "train_samples_per_second": 28.688,
+    "train_steps_per_second": 0.056
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,479 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 591,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.050761421319796954,
+      "grad_norm": 2.884176452669992,
+      "learning_rate": 5e-06,
+      "loss": 0.7058,
+      "step": 10
+    },
+    {
+      "epoch": 0.10152284263959391,
+      "grad_norm": 1.1031748057601416,
+      "learning_rate": 5e-06,
+      "loss": 0.6396,
+      "step": 20
+    },
+    {
+      "epoch": 0.15228426395939088,
+      "grad_norm": 0.8763770464242356,
+      "learning_rate": 5e-06,
+      "loss": 0.6263,
+      "step": 30
+    },
+    {
+      "epoch": 0.20304568527918782,
+      "grad_norm": 0.8637694735287882,
+      "learning_rate": 5e-06,
+      "loss": 0.6163,
+      "step": 40
+    },
+    {
+      "epoch": 0.25380710659898476,
+      "grad_norm": 0.6443562464039193,
+      "learning_rate": 5e-06,
+      "loss": 0.5983,
+      "step": 50
+    },
+    {
+      "epoch": 0.30456852791878175,
+      "grad_norm": 0.7181436435893084,
+      "learning_rate": 5e-06,
+      "loss": 0.5841,
+      "step": 60
+    },
+    {
+      "epoch": 0.3553299492385787,
+      "grad_norm": 0.5736245789251513,
+      "learning_rate": 5e-06,
+      "loss": 0.5851,
+      "step": 70
+    },
+    {
+      "epoch": 0.40609137055837563,
+      "grad_norm": 0.5370831215793392,
+      "learning_rate": 5e-06,
+      "loss": 0.5743,
+      "step": 80
+    },
+    {
+      "epoch": 0.45685279187817257,
+      "grad_norm": 0.7868112154827747,
+      "learning_rate": 5e-06,
+      "loss": 0.5631,
+      "step": 90
+    },
+    {
+      "epoch": 0.5076142131979695,
+      "grad_norm": 0.6384967672565564,
+      "learning_rate": 5e-06,
+      "loss": 0.5621,
+      "step": 100
+    },
+    {
+      "epoch": 0.5583756345177665,
+      "grad_norm": 0.6105632833081082,
+      "learning_rate": 5e-06,
+      "loss": 0.5626,
+      "step": 110
+    },
+    {
+      "epoch": 0.6091370558375635,
+      "grad_norm": 0.4980885433595067,
+      "learning_rate": 5e-06,
+      "loss": 0.5576,
+      "step": 120
+    },
+    {
+      "epoch": 0.6598984771573604,
+      "grad_norm": 0.5567494710307067,
+      "learning_rate": 5e-06,
+      "loss": 0.5634,
+      "step": 130
+    },
+    {
+      "epoch": 0.7106598984771574,
+      "grad_norm": 0.5747955173184647,
+      "learning_rate": 5e-06,
+      "loss": 0.5556,
+      "step": 140
+    },
+    {
+      "epoch": 0.7614213197969543,
+      "grad_norm": 0.7422760458895346,
+      "learning_rate": 5e-06,
+      "loss": 0.5485,
+      "step": 150
+    },
+    {
+      "epoch": 0.8121827411167513,
+      "grad_norm": 0.5519407925537647,
+      "learning_rate": 5e-06,
+      "loss": 0.5555,
+      "step": 160
+    },
+    {
+      "epoch": 0.8629441624365483,
+      "grad_norm": 0.3938384364399605,
+      "learning_rate": 5e-06,
+      "loss": 0.5534,
+      "step": 170
+    },
+    {
+      "epoch": 0.9137055837563451,
+      "grad_norm": 0.4274758585586587,
+      "learning_rate": 5e-06,
+      "loss": 0.5504,
+      "step": 180
+    },
+    {
+      "epoch": 0.9644670050761421,
+      "grad_norm": 0.4623946226615239,
+      "learning_rate": 5e-06,
+      "loss": 0.5428,
+      "step": 190
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.545667827129364,
+      "eval_runtime": 69.9223,
+      "eval_samples_per_second": 75.899,
+      "eval_steps_per_second": 0.601,
+      "step": 197
+    },
+    {
+      "epoch": 1.015228426395939,
+      "grad_norm": 0.4892463181375632,
+      "learning_rate": 5e-06,
+      "loss": 0.538,
+      "step": 200
+    },
+    {
+      "epoch": 1.0659898477157361,
+      "grad_norm": 0.5258103265854674,
+      "learning_rate": 5e-06,
+      "loss": 0.5005,
+      "step": 210
+    },
+    {
+      "epoch": 1.116751269035533,
+      "grad_norm": 0.43953346933881265,
+      "learning_rate": 5e-06,
+      "loss": 0.5116,
+      "step": 220
+    },
+    {
+      "epoch": 1.16751269035533,
+      "grad_norm": 0.555350254923011,
+      "learning_rate": 5e-06,
+      "loss": 0.5039,
+      "step": 230
+    },
+    {
+      "epoch": 1.218274111675127,
+      "grad_norm": 0.4240258545882722,
+      "learning_rate": 5e-06,
+      "loss": 0.4979,
+      "step": 240
+    },
+    {
+      "epoch": 1.2690355329949239,
+      "grad_norm": 0.6055626365057643,
+      "learning_rate": 5e-06,
+      "loss": 0.4977,
+      "step": 250
+    },
+    {
+      "epoch": 1.3197969543147208,
+      "grad_norm": 0.5183814019968731,
+      "learning_rate": 5e-06,
+      "loss": 0.5015,
+      "step": 260
+    },
+    {
+      "epoch": 1.3705583756345177,
+      "grad_norm": 0.44198994392173363,
+      "learning_rate": 5e-06,
+      "loss": 0.5052,
+      "step": 270
+    },
+    {
+      "epoch": 1.4213197969543148,
+      "grad_norm": 0.4597615345223239,
+      "learning_rate": 5e-06,
+      "loss": 0.4974,
+      "step": 280
+    },
+    {
+      "epoch": 1.4720812182741116,
+      "grad_norm": 0.47036560762175594,
+      "learning_rate": 5e-06,
+      "loss": 0.5044,
+      "step": 290
+    },
+    {
+      "epoch": 1.5228426395939088,
+      "grad_norm": 0.4356873877920564,
+      "learning_rate": 5e-06,
+      "loss": 0.5134,
+      "step": 300
+    },
+    {
+      "epoch": 1.5736040609137056,
+      "grad_norm": 0.4547653150275499,
+      "learning_rate": 5e-06,
+      "loss": 0.5022,
+      "step": 310
+    },
+    {
+      "epoch": 1.6243654822335025,
+      "grad_norm": 0.5243750306692014,
+      "learning_rate": 5e-06,
+      "loss": 0.5001,
+      "step": 320
+    },
+    {
+      "epoch": 1.6751269035532994,
+      "grad_norm": 0.5072947429791255,
+      "learning_rate": 5e-06,
+      "loss": 0.504,
+      "step": 330
+    },
+    {
+      "epoch": 1.7258883248730963,
+      "grad_norm": 0.4591167012346128,
+      "learning_rate": 5e-06,
+      "loss": 0.5008,
+      "step": 340
+    },
+    {
+      "epoch": 1.7766497461928934,
+      "grad_norm": 0.559953933092174,
+      "learning_rate": 5e-06,
+      "loss": 0.5058,
+      "step": 350
+    },
+    {
+      "epoch": 1.8274111675126905,
+      "grad_norm": 0.4615691289798925,
+      "learning_rate": 5e-06,
+      "loss": 0.5013,
+      "step": 360
+    },
+    {
+      "epoch": 1.8781725888324874,
+      "grad_norm": 0.4673102096867509,
+      "learning_rate": 5e-06,
+      "loss": 0.505,
+      "step": 370
+    },
+    {
+      "epoch": 1.9289340101522843,
+      "grad_norm": 0.41382969409293313,
+      "learning_rate": 5e-06,
+      "loss": 0.5029,
+      "step": 380
+    },
+    {
+      "epoch": 1.9796954314720812,
+      "grad_norm": 0.4786556881881671,
+      "learning_rate": 5e-06,
+      "loss": 0.4991,
+      "step": 390
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.5367357730865479,
+      "eval_runtime": 69.7466,
+      "eval_samples_per_second": 76.09,
+      "eval_steps_per_second": 0.602,
+      "step": 394
+    },
+    {
+      "epoch": 2.030456852791878,
+      "grad_norm": 0.7058322019162009,
+      "learning_rate": 5e-06,
+      "loss": 0.4785,
+      "step": 400
+    },
+    {
+      "epoch": 2.081218274111675,
+      "grad_norm": 0.45765334889032916,
+      "learning_rate": 5e-06,
+      "loss": 0.4563,
+      "step": 410
+    },
+    {
+      "epoch": 2.1319796954314723,
+      "grad_norm": 0.4288566534513188,
+      "learning_rate": 5e-06,
+      "loss": 0.4564,
+      "step": 420
+    },
+    {
+      "epoch": 2.182741116751269,
+      "grad_norm": 0.4543531173101596,
+      "learning_rate": 5e-06,
+      "loss": 0.4559,
+      "step": 430
+    },
+    {
+      "epoch": 2.233502538071066,
+      "grad_norm": 0.5677467898296061,
+      "learning_rate": 5e-06,
+      "loss": 0.454,
+      "step": 440
+    },
+    {
+      "epoch": 2.284263959390863,
+      "grad_norm": 0.5213901371480834,
+      "learning_rate": 5e-06,
+      "loss": 0.4584,
+      "step": 450
+    },
+    {
+      "epoch": 2.33502538071066,
+      "grad_norm": 0.5106205098926287,
+      "learning_rate": 5e-06,
+      "loss": 0.4603,
+      "step": 460
+    },
+    {
+      "epoch": 2.3857868020304567,
+      "grad_norm": 0.48058806334750254,
+      "learning_rate": 5e-06,
+      "loss": 0.4586,
+      "step": 470
+    },
+    {
+      "epoch": 2.436548223350254,
+      "grad_norm": 0.4462504100857437,
+      "learning_rate": 5e-06,
+      "loss": 0.4547,
+      "step": 480
+    },
+    {
+      "epoch": 2.487309644670051,
+      "grad_norm": 0.47373720391622604,
+      "learning_rate": 5e-06,
+      "loss": 0.4553,
+      "step": 490
+    },
+    {
+      "epoch": 2.5380710659898478,
+      "grad_norm": 0.44268127361884035,
+      "learning_rate": 5e-06,
+      "loss": 0.4552,
+      "step": 500
+    },
+    {
+      "epoch": 2.5888324873096447,
+      "grad_norm": 0.5168789659092264,
+      "learning_rate": 5e-06,
+      "loss": 0.4495,
+      "step": 510
+    },
+    {
+      "epoch": 2.6395939086294415,
+      "grad_norm": 0.4759213683260235,
+      "learning_rate": 5e-06,
+      "loss": 0.4601,
+      "step": 520
+    },
+    {
+      "epoch": 2.6903553299492384,
+      "grad_norm": 0.5405150525609788,
+      "learning_rate": 5e-06,
+      "loss": 0.4639,
+      "step": 530
+    },
+    {
+      "epoch": 2.7411167512690353,
+      "grad_norm": 0.48554448131156325,
+      "learning_rate": 5e-06,
+      "loss": 0.4561,
+      "step": 540
+    },
+    {
+      "epoch": 2.7918781725888326,
+      "grad_norm": 0.5715450026884347,
+      "learning_rate": 5e-06,
+      "loss": 0.458,
+      "step": 550
+    },
+    {
+      "epoch": 2.8426395939086295,
+      "grad_norm": 0.45709891570844524,
+      "learning_rate": 5e-06,
+      "loss": 0.4582,
+      "step": 560
+    },
+    {
+      "epoch": 2.8934010152284264,
+      "grad_norm": 0.4329230281361173,
+      "learning_rate": 5e-06,
+      "loss": 0.4535,
+      "step": 570
+    },
+    {
+      "epoch": 2.9441624365482233,
+      "grad_norm": 0.4707895543051601,
+      "learning_rate": 5e-06,
+      "loss": 0.4609,
+      "step": 580
+    },
+    {
+      "epoch": 2.99492385786802,
+      "grad_norm": 0.4717664390758382,
+      "learning_rate": 5e-06,
+      "loss": 0.4636,
+      "step": 590
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.5386124849319458,
+      "eval_runtime": 67.8364,
+      "eval_samples_per_second": 78.232,
+      "eval_steps_per_second": 0.619,
+      "step": 591
+    },
+    {
+      "epoch": 3.0,
+      "step": 591,
+      "total_flos": 989528252743680.0,
+      "train_loss": 0.5134775242224563,
+      "train_runtime": 10543.3353,
+      "train_samples_per_second": 28.688,
+      "train_steps_per_second": 0.056
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 591,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 989528252743680.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed