Training in progress, step 200, checkpoint

Browse files

Files changed (7) hide show

checkpoint-200/adapter_config.json +4 -4
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/rng_state.pth +1 -1
checkpoint-200/scheduler.pt +1 -1
checkpoint-200/trainer_state.json +233 -105
checkpoint-200/training_args.bin +1 -1

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -23,13 +23,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "k_proj",
-    "o_proj",
-    "up_proj",
     "q_proj",
     "down_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "k_proj",
     "q_proj",
+    "gate_proj",
+    "o_proj",
     "down_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b03bcbae977e98dbb28d30db84d89b812576d7e3ce37764495370dd5428077db
 size 145287696

 version https://git-lfs.github.com/spec/v1
+oid sha256:96091c94f705abfd93fa76b5e26ab01fc038a2adae9c9a94b8037c14a5080d71
 size 145287696

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd226b3871c92c7488e458ece7628ca7b519dda3cf5c0f8bae5893a01e870046
 size 290833618

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7dfe306b99fb0015a85f65c81466ed472ff036879b74eb14adbf2d53284c7b4
 size 290833618

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bd9a592c4a9e7cd2c08cb7c6ad796d33a83626e1e6f48d4851887e8d955063d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5183b16b2feb017749158123747811a04a1ee75226ab2848edc3b8ea64b8634e
 size 14244

checkpoint-200/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03d636bf275cca0830f6f24ec5b2f05fe140d74159c6c75ee797e07d187203c0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:399ce82c9e1658d463c19de3c20108c706a76b0356e5e266301d089ef0200499
 size 1064

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -1,191 +1,319 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.21739130434782608,
-  "eval_steps": 50,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.010869565217391304,
-      "grad_norm": 2.4570870399475098,
-      "learning_rate": 4.981884057971015e-05,
-      "loss": 2.3612,
       "step": 10
     },
     {
       "epoch": 0.021739130434782608,
-      "grad_norm": 1.2042421102523804,
-      "learning_rate": 4.963768115942029e-05,
-      "loss": 1.1915,
       "step": 20
     },
     {
-      "epoch": 0.03260869565217391,
-      "grad_norm": 1.2019174098968506,
-      "learning_rate": 4.945652173913044e-05,
-      "loss": 0.8992,
       "step": 30
     },
     {
-      "epoch": 0.043478260869565216,
-      "grad_norm": 1.0546120405197144,
-      "learning_rate": 4.9275362318840584e-05,
-      "loss": 0.7276,
       "step": 40
     },
     {
-      "epoch": 0.05434782608695652,
-      "grad_norm": 0.754091203212738,
-      "learning_rate": 4.909420289855073e-05,
-      "loss": 0.6419,
       "step": 50
     },
     {
-      "epoch": 0.05434782608695652,
-      "eval_loss": 0.7905128598213196,
-      "eval_runtime": 10.8418,
-      "eval_samples_per_second": 44.273,
-      "eval_steps_per_second": 2.767,
       "step": 50
     },
     {
-      "epoch": 0.06521739130434782,
-      "grad_norm": 0.7751966714859009,
-      "learning_rate": 4.891304347826087e-05,
-      "loss": 0.5971,
       "step": 60
     },
     {
-      "epoch": 0.07608695652173914,
-      "grad_norm": 0.6874057650566101,
-      "learning_rate": 4.873188405797102e-05,
-      "loss": 0.608,
       "step": 70
     },
     {
-      "epoch": 0.08695652173913043,
-      "grad_norm": 0.7145748734474182,
-      "learning_rate": 4.855072463768116e-05,
-      "loss": 0.6111,
       "step": 80
     },
     {
-      "epoch": 0.09782608695652174,
-      "grad_norm": 0.8841484189033508,
-      "learning_rate": 4.836956521739131e-05,
-      "loss": 0.5848,
       "step": 90
     },
     {
-      "epoch": 0.10869565217391304,
-      "grad_norm": 0.7937784790992737,
-      "learning_rate": 4.818840579710145e-05,
-      "loss": 0.5699,
       "step": 100
     },
     {
-      "epoch": 0.10869565217391304,
-      "eval_loss": 0.6956210732460022,
-      "eval_runtime": 10.863,
-      "eval_samples_per_second": 44.187,
-      "eval_steps_per_second": 2.762,
       "step": 100
     },
     {
-      "epoch": 0.11956521739130435,
-      "grad_norm": 0.7818441987037659,
-      "learning_rate": 4.80072463768116e-05,
-      "loss": 0.5946,
       "step": 110
     },
     {
-      "epoch": 0.13043478260869565,
-      "grad_norm": 0.8666340112686157,
-      "learning_rate": 4.782608695652174e-05,
-      "loss": 0.5469,
       "step": 120
     },
     {
-      "epoch": 0.14130434782608695,
-      "grad_norm": 0.7637468576431274,
-      "learning_rate": 4.764492753623189e-05,
-      "loss": 0.5307,
       "step": 130
     },
     {
-      "epoch": 0.15217391304347827,
-      "grad_norm": 0.8282362222671509,
-      "learning_rate": 4.746376811594203e-05,
-      "loss": 0.5312,
       "step": 140
     },
     {
-      "epoch": 0.16304347826086957,
-      "grad_norm": 0.9675197601318359,
-      "learning_rate": 4.7282608695652177e-05,
-      "loss": 0.5486,
       "step": 150
     },
     {
-      "epoch": 0.16304347826086957,
-      "eval_loss": 0.6567058563232422,
-      "eval_runtime": 10.8376,
-      "eval_samples_per_second": 44.29,
-      "eval_steps_per_second": 2.768,
       "step": 150
     },
     {
-      "epoch": 0.17391304347826086,
-      "grad_norm": 0.7035924792289734,
-      "learning_rate": 4.710144927536232e-05,
-      "loss": 0.5553,
       "step": 160
     },
     {
-      "epoch": 0.18478260869565216,
-      "grad_norm": 0.8957257866859436,
-      "learning_rate": 4.6920289855072464e-05,
-      "loss": 0.54,
       "step": 170
     },
     {
-      "epoch": 0.1956521739130435,
-      "grad_norm": 0.8544663190841675,
-      "learning_rate": 4.673913043478261e-05,
-      "loss": 0.55,
       "step": 180
     },
     {
-      "epoch": 0.20652173913043478,
-      "grad_norm": 0.7599456310272217,
-      "learning_rate": 4.655797101449276e-05,
-      "loss": 0.5102,
       "step": 190
     },
     {
-      "epoch": 0.21739130434782608,
-      "grad_norm": 0.9151259064674377,
-      "learning_rate": 4.63768115942029e-05,
-      "loss": 0.5372,
       "step": 200
     },
     {
-      "epoch": 0.21739130434782608,
-      "eval_loss": 0.6319016218185425,
-      "eval_runtime": 10.8237,
-      "eval_samples_per_second": 44.347,
-      "eval_steps_per_second": 2.772,
       "step": 200
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2760,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
-  "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -198,8 +326,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7520160047366144e+16,
-  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.43478260869565216,
+  "eval_steps": 10,
   "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.021739130434782608,
+      "grad_norm": 2.2049312591552734,
+      "learning_rate": 4.963768115942029e-05,
+      "loss": 2.3459,
       "step": 10
     },
     {
       "epoch": 0.021739130434782608,
+      "eval_loss": 1.5330805778503418,
+      "eval_runtime": 9.6608,
+      "eval_samples_per_second": 49.685,
+      "eval_steps_per_second": 1.553,
+      "step": 10
+    },
+    {
+      "epoch": 0.043478260869565216,
+      "grad_norm": 1.1927831172943115,
+      "learning_rate": 4.9275362318840584e-05,
+      "loss": 1.1669,
+      "step": 20
+    },
+    {
+      "epoch": 0.043478260869565216,
+      "eval_loss": 1.0271039009094238,
+      "eval_runtime": 9.7215,
+      "eval_samples_per_second": 49.375,
+      "eval_steps_per_second": 1.543,
       "step": 20
     },
     {
+      "epoch": 0.06521739130434782,
+      "grad_norm": 1.0509072542190552,
+      "learning_rate": 4.891304347826087e-05,
+      "loss": 0.8327,
       "step": 30
     },
     {
+      "epoch": 0.06521739130434782,
+      "eval_loss": 0.9039635062217712,
+      "eval_runtime": 9.7818,
+      "eval_samples_per_second": 49.071,
+      "eval_steps_per_second": 1.533,
+      "step": 30
+    },
+    {
+      "epoch": 0.08695652173913043,
+      "grad_norm": 0.8860757350921631,
+      "learning_rate": 4.855072463768116e-05,
+      "loss": 0.731,
       "step": 40
     },
     {
+      "epoch": 0.08695652173913043,
+      "eval_loss": 0.8067704439163208,
+      "eval_runtime": 9.8118,
+      "eval_samples_per_second": 48.921,
+      "eval_steps_per_second": 1.529,
+      "step": 40
+    },
+    {
+      "epoch": 0.10869565217391304,
+      "grad_norm": 0.57489013671875,
+      "learning_rate": 4.818840579710145e-05,
+      "loss": 0.6501,
       "step": 50
     },
     {
+      "epoch": 0.10869565217391304,
+      "eval_loss": 0.7662845849990845,
+      "eval_runtime": 9.8455,
+      "eval_samples_per_second": 48.753,
+      "eval_steps_per_second": 1.524,
       "step": 50
     },
     {
+      "epoch": 0.13043478260869565,
+      "grad_norm": 0.5091506242752075,
+      "learning_rate": 4.782608695652174e-05,
+      "loss": 0.6288,
+      "step": 60
+    },
+    {
+      "epoch": 0.13043478260869565,
+      "eval_loss": 0.7400590181350708,
+      "eval_runtime": 9.8714,
+      "eval_samples_per_second": 48.626,
+      "eval_steps_per_second": 1.52,
       "step": 60
     },
     {
+      "epoch": 0.15217391304347827,
+      "grad_norm": 0.5590857863426208,
+      "learning_rate": 4.746376811594203e-05,
+      "loss": 0.5838,
       "step": 70
     },
     {
+      "epoch": 0.15217391304347827,
+      "eval_loss": 0.7244360446929932,
+      "eval_runtime": 9.8787,
+      "eval_samples_per_second": 48.589,
+      "eval_steps_per_second": 1.518,
+      "step": 70
+    },
+    {
+      "epoch": 0.17391304347826086,
+      "grad_norm": 0.553692638874054,
+      "learning_rate": 4.710144927536232e-05,
+      "loss": 0.5979,
+      "step": 80
+    },
+    {
+      "epoch": 0.17391304347826086,
+      "eval_loss": 0.7010239958763123,
+      "eval_runtime": 9.881,
+      "eval_samples_per_second": 48.578,
+      "eval_steps_per_second": 1.518,
       "step": 80
     },
     {
+      "epoch": 0.1956521739130435,
+      "grad_norm": 0.624009370803833,
+      "learning_rate": 4.673913043478261e-05,
+      "loss": 0.5894,
       "step": 90
     },
     {
+      "epoch": 0.1956521739130435,
+      "eval_loss": 0.6886861324310303,
+      "eval_runtime": 9.8875,
+      "eval_samples_per_second": 48.546,
+      "eval_steps_per_second": 1.517,
+      "step": 90
+    },
+    {
+      "epoch": 0.21739130434782608,
+      "grad_norm": 0.6356642246246338,
+      "learning_rate": 4.63768115942029e-05,
+      "loss": 0.5625,
       "step": 100
     },
     {
+      "epoch": 0.21739130434782608,
+      "eval_loss": 0.6777426600456238,
+      "eval_runtime": 9.8957,
+      "eval_samples_per_second": 48.506,
+      "eval_steps_per_second": 1.516,
       "step": 100
     },
     {
+      "epoch": 0.2391304347826087,
+      "grad_norm": 0.5606981515884399,
+      "learning_rate": 4.601449275362319e-05,
+      "loss": 0.5701,
       "step": 110
     },
     {
+      "epoch": 0.2391304347826087,
+      "eval_loss": 0.6700096130371094,
+      "eval_runtime": 9.8935,
+      "eval_samples_per_second": 48.516,
+      "eval_steps_per_second": 1.516,
+      "step": 110
+    },
+    {
+      "epoch": 0.2608695652173913,
+      "grad_norm": 0.584280252456665,
+      "learning_rate": 4.565217391304348e-05,
+      "loss": 0.5365,
       "step": 120
     },
     {
+      "epoch": 0.2608695652173913,
+      "eval_loss": 0.6583032011985779,
+      "eval_runtime": 9.9026,
+      "eval_samples_per_second": 48.472,
+      "eval_steps_per_second": 1.515,
+      "step": 120
+    },
+    {
+      "epoch": 0.2826086956521739,
+      "grad_norm": 0.6070062518119812,
+      "learning_rate": 4.528985507246377e-05,
+      "loss": 0.5227,
       "step": 130
     },
     {
+      "epoch": 0.2826086956521739,
+      "eval_loss": 0.6501919627189636,
+      "eval_runtime": 9.8992,
+      "eval_samples_per_second": 48.489,
+      "eval_steps_per_second": 1.515,
+      "step": 130
+    },
+    {
+      "epoch": 0.30434782608695654,
+      "grad_norm": 0.6242979764938354,
+      "learning_rate": 4.492753623188406e-05,
+      "loss": 0.5305,
+      "step": 140
+    },
+    {
+      "epoch": 0.30434782608695654,
+      "eval_loss": 0.6420691013336182,
+      "eval_runtime": 9.8828,
+      "eval_samples_per_second": 48.569,
+      "eval_steps_per_second": 1.518,
       "step": 140
     },
     {
+      "epoch": 0.32608695652173914,
+      "grad_norm": 0.6196560859680176,
+      "learning_rate": 4.456521739130435e-05,
+      "loss": 0.5334,
       "step": 150
     },
     {
+      "epoch": 0.32608695652173914,
+      "eval_loss": 0.6367022395133972,
+      "eval_runtime": 9.8886,
+      "eval_samples_per_second": 48.541,
+      "eval_steps_per_second": 1.517,
       "step": 150
     },
     {
+      "epoch": 0.34782608695652173,
+      "grad_norm": 0.6115924119949341,
+      "learning_rate": 4.4202898550724645e-05,
+      "loss": 0.5163,
+      "step": 160
+    },
+    {
+      "epoch": 0.34782608695652173,
+      "eval_loss": 0.6340358853340149,
+      "eval_runtime": 9.9159,
+      "eval_samples_per_second": 48.407,
+      "eval_steps_per_second": 1.513,
       "step": 160
     },
     {
+      "epoch": 0.3695652173913043,
+      "grad_norm": 0.5742267966270447,
+      "learning_rate": 4.384057971014493e-05,
+      "loss": 0.5156,
       "step": 170
     },
     {
+      "epoch": 0.3695652173913043,
+      "eval_loss": 0.6300316452980042,
+      "eval_runtime": 9.8819,
+      "eval_samples_per_second": 48.574,
+      "eval_steps_per_second": 1.518,
+      "step": 170
+    },
+    {
+      "epoch": 0.391304347826087,
+      "grad_norm": 0.5701326727867126,
+      "learning_rate": 4.347826086956522e-05,
+      "loss": 0.5087,
+      "step": 180
+    },
+    {
+      "epoch": 0.391304347826087,
+      "eval_loss": 0.6247866153717041,
+      "eval_runtime": 9.8798,
+      "eval_samples_per_second": 48.584,
+      "eval_steps_per_second": 1.518,
       "step": 180
     },
     {
+      "epoch": 0.41304347826086957,
+      "grad_norm": 0.6273636221885681,
+      "learning_rate": 4.3115942028985515e-05,
+      "loss": 0.5132,
       "step": 190
     },
     {
+      "epoch": 0.41304347826086957,
+      "eval_loss": 0.6192939877510071,
+      "eval_runtime": 9.8693,
+      "eval_samples_per_second": 48.636,
+      "eval_steps_per_second": 1.52,
+      "step": 190
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 0.6055566668510437,
+      "learning_rate": 4.27536231884058e-05,
+      "loss": 0.5136,
       "step": 200
     },
     {
+      "epoch": 0.43478260869565216,
+      "eval_loss": 0.615530788898468,
+      "eval_runtime": 9.8728,
+      "eval_samples_per_second": 48.618,
+      "eval_steps_per_second": 1.519,
       "step": 200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1380,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
+  "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 3.683737449529344e+16,
+  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81786d634f359bee447d9c2dad023b92502900c87e9208470ed326b1204c5b1a
 size 5816

 version https://git-lfs.github.com/spec/v1
+oid sha256:1cdf2cbd96a7d8012e1f3da0569783099ba26a3ecbec680ff36cde09793d0889
 size 5816