Training in progress, step 35, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +220 -61
last-checkpoint/training_args.bin +2 -2

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
-    "q_proj",
     "up_proj",
     "gate_proj",
     "o_proj",
     "k_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
     "gate_proj",
     "o_proj",
     "k_proj",
+    "v_proj",
+    "down_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e83f643c5a9ab1cfeea362359ac6a525e971df1e3983567f604cb597906c1754
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:ba4278cca7255c9ddaed50ffb682eee63c6d1a424636d63a067aa111a5265137
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:432df0593e0c92f4f103861a5875d814800331c5703ce69afd65fbbe0b1d89bd
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:b272124104fc85c680ad1fb7b8107ff9da2af68217c1025da825177c6ddaa9d7
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f5adca46d5768b2528d11214bf50c169d41422785e8b729921c5399a7fed5df
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d12df93e39f0749d364ca6814b0bfacff84881459c9967e57146b8e6e2eb11d7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bb578e75c11a81e85dda67a691f96ba4793a02960f1409fd3e1511aac873491a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb862dbd6d6a9c776ecb1c74360f055af4c6285cf030af3020acd182d15c5ef8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,118 +1,277 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.02386634844868735,
-  "eval_steps": 3,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.002386634844868735,
-      "grad_norm": 1.0580705404281616,
-      "learning_rate": 2e-05,
       "loss": 1.0747,
       "step": 1
     },
     {
       "epoch": 0.002386634844868735,
       "eval_loss": 1.0123302936553955,
-      "eval_runtime": 27.4242,
-      "eval_samples_per_second": 6.454,
-      "eval_steps_per_second": 3.245,
       "step": 1
     },
     {
       "epoch": 0.00477326968973747,
-      "grad_norm": 0.7454516291618347,
-      "learning_rate": 4e-05,
       "loss": 0.7862,
       "step": 2
     },
     {
       "epoch": 0.007159904534606206,
-      "grad_norm": 0.6492141485214233,
-      "learning_rate": 6e-05,
-      "loss": 0.8378,
-      "step": 3
-    },
-    {
-      "epoch": 0.007159904534606206,
-      "eval_loss": 1.0094887018203735,
-      "eval_runtime": 27.4338,
-      "eval_samples_per_second": 6.452,
-      "eval_steps_per_second": 3.244,
       "step": 3
     },
     {
       "epoch": 0.00954653937947494,
-      "grad_norm": 0.5810346007347107,
-      "learning_rate": 8e-05,
-      "loss": 0.7888,
       "step": 4
     },
     {
       "epoch": 0.011933174224343675,
-      "grad_norm": 0.6462458372116089,
-      "learning_rate": 0.0001,
-      "loss": 0.7506,
       "step": 5
     },
     {
       "epoch": 0.014319809069212411,
-      "grad_norm": 1.0376014709472656,
-      "learning_rate": 0.00012,
-      "loss": 0.8917,
-      "step": 6
-    },
-    {
-      "epoch": 0.014319809069212411,
-      "eval_loss": 0.9692097306251526,
-      "eval_runtime": 27.4583,
-      "eval_samples_per_second": 6.446,
-      "eval_steps_per_second": 3.241,
       "step": 6
     },
     {
       "epoch": 0.016706443914081145,
-      "grad_norm": 0.5357475280761719,
-      "learning_rate": 0.00014,
-      "loss": 0.7908,
       "step": 7
     },
     {
       "epoch": 0.01909307875894988,
-      "grad_norm": 0.8745409846305847,
-      "learning_rate": 0.00016,
-      "loss": 1.1039,
       "step": 8
     },
     {
       "epoch": 0.021479713603818614,
-      "grad_norm": 0.4521085321903229,
-      "learning_rate": 0.00018,
-      "loss": 0.6845,
-      "step": 9
-    },
-    {
-      "epoch": 0.021479713603818614,
-      "eval_loss": 0.9187015295028687,
-      "eval_runtime": 27.4853,
-      "eval_samples_per_second": 6.44,
-      "eval_steps_per_second": 3.238,
       "step": 9
     },
     {
       "epoch": 0.02386634844868735,
-      "grad_norm": 0.5216010808944702,
-      "learning_rate": 0.0002,
-      "loss": 0.7988,
       "step": 10
     }
   ],
   "logging_steps": 1,
-  "max_steps": 10,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 5,
@@ -123,12 +282,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 1935445139128320.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.08353221957040573,
+  "eval_steps": 25,
+  "global_step": 35,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.002386634844868735,
+      "grad_norm": 1.0874019861221313,
+      "learning_rate": 1e-05,
       "loss": 1.0747,
       "step": 1
     },
     {
       "epoch": 0.002386634844868735,
       "eval_loss": 1.0123302936553955,
+      "eval_runtime": 27.9511,
+      "eval_samples_per_second": 6.332,
+      "eval_steps_per_second": 3.184,
       "step": 1
     },
     {
       "epoch": 0.00477326968973747,
+      "grad_norm": 0.748105525970459,
+      "learning_rate": 2e-05,
       "loss": 0.7862,
       "step": 2
     },
     {
       "epoch": 0.007159904534606206,
+      "grad_norm": 0.6411569118499756,
+      "learning_rate": 3e-05,
+      "loss": 0.8414,
       "step": 3
     },
     {
       "epoch": 0.00954653937947494,
+      "grad_norm": 0.5958303213119507,
+      "learning_rate": 4e-05,
+      "loss": 0.7947,
       "step": 4
     },
     {
       "epoch": 0.011933174224343675,
+      "grad_norm": 0.6730267405509949,
+      "learning_rate": 5e-05,
+      "loss": 0.76,
       "step": 5
     },
     {
       "epoch": 0.014319809069212411,
+      "grad_norm": 1.1415467262268066,
+      "learning_rate": 6e-05,
+      "loss": 0.9148,
       "step": 6
     },
     {
       "epoch": 0.016706443914081145,
+      "grad_norm": 0.598889946937561,
+      "learning_rate": 7e-05,
+      "loss": 0.8089,
       "step": 7
     },
     {
       "epoch": 0.01909307875894988,
+      "grad_norm": 1.1247347593307495,
+      "learning_rate": 8e-05,
+      "loss": 1.1527,
       "step": 8
     },
     {
       "epoch": 0.021479713603818614,
+      "grad_norm": 0.5591338872909546,
+      "learning_rate": 9e-05,
+      "loss": 0.711,
       "step": 9
     },
     {
       "epoch": 0.02386634844868735,
+      "grad_norm": 0.6751295328140259,
+      "learning_rate": 0.0001,
+      "loss": 0.8312,
       "step": 10
+    },
+    {
+      "epoch": 0.026252983293556086,
+      "grad_norm": 0.7573989033699036,
+      "learning_rate": 9.99695413509548e-05,
+      "loss": 1.1809,
+      "step": 11
+    },
+    {
+      "epoch": 0.028639618138424822,
+      "grad_norm": 0.7879427671432495,
+      "learning_rate": 9.987820251299122e-05,
+      "loss": 1.0638,
+      "step": 12
+    },
+    {
+      "epoch": 0.031026252983293555,
+      "grad_norm": 0.6389354467391968,
+      "learning_rate": 9.972609476841367e-05,
+      "loss": 0.8152,
+      "step": 13
+    },
+    {
+      "epoch": 0.03341288782816229,
+      "grad_norm": 0.479705810546875,
+      "learning_rate": 9.951340343707852e-05,
+      "loss": 0.6732,
+      "step": 14
+    },
+    {
+      "epoch": 0.03579952267303103,
+      "grad_norm": 0.5184096097946167,
+      "learning_rate": 9.924038765061042e-05,
+      "loss": 1.0368,
+      "step": 15
+    },
+    {
+      "epoch": 0.03818615751789976,
+      "grad_norm": 0.4770895838737488,
+      "learning_rate": 9.890738003669029e-05,
+      "loss": 0.8109,
+      "step": 16
+    },
+    {
+      "epoch": 0.0405727923627685,
+      "grad_norm": 0.5425803065299988,
+      "learning_rate": 9.851478631379982e-05,
+      "loss": 0.88,
+      "step": 17
+    },
+    {
+      "epoch": 0.04295942720763723,
+      "grad_norm": 0.5870300531387329,
+      "learning_rate": 9.806308479691595e-05,
+      "loss": 0.906,
+      "step": 18
+    },
+    {
+      "epoch": 0.045346062052505964,
+      "grad_norm": 0.5628218054771423,
+      "learning_rate": 9.755282581475769e-05,
+      "loss": 0.6757,
+      "step": 19
+    },
+    {
+      "epoch": 0.0477326968973747,
+      "grad_norm": 0.5832799673080444,
+      "learning_rate": 9.698463103929542e-05,
+      "loss": 0.8508,
+      "step": 20
+    },
+    {
+      "epoch": 0.050119331742243436,
+      "grad_norm": 0.5866987109184265,
+      "learning_rate": 9.635919272833938e-05,
+      "loss": 0.872,
+      "step": 21
+    },
+    {
+      "epoch": 0.05250596658711217,
+      "grad_norm": 0.604156494140625,
+      "learning_rate": 9.567727288213005e-05,
+      "loss": 0.6487,
+      "step": 22
+    },
+    {
+      "epoch": 0.05489260143198091,
+      "grad_norm": 0.5820953249931335,
+      "learning_rate": 9.493970231495835e-05,
+      "loss": 0.8686,
+      "step": 23
+    },
+    {
+      "epoch": 0.057279236276849645,
+      "grad_norm": 0.6393556594848633,
+      "learning_rate": 9.414737964294636e-05,
+      "loss": 0.781,
+      "step": 24
+    },
+    {
+      "epoch": 0.059665871121718374,
+      "grad_norm": 0.6221751570701599,
+      "learning_rate": 9.330127018922194e-05,
+      "loss": 0.8032,
+      "step": 25
+    },
+    {
+      "epoch": 0.059665871121718374,
+      "eval_loss": 0.8647359013557434,
+      "eval_runtime": 27.9002,
+      "eval_samples_per_second": 6.344,
+      "eval_steps_per_second": 3.19,
+      "step": 25
+    },
+    {
+      "epoch": 0.06205250596658711,
+      "grad_norm": 0.7337064146995544,
+      "learning_rate": 9.24024048078213e-05,
+      "loss": 0.9311,
+      "step": 26
+    },
+    {
+      "epoch": 0.06443914081145585,
+      "grad_norm": 0.4561159908771515,
+      "learning_rate": 9.145187862775209e-05,
+      "loss": 1.0223,
+      "step": 27
+    },
+    {
+      "epoch": 0.06682577565632458,
+      "grad_norm": 0.42628154158592224,
+      "learning_rate": 9.045084971874738e-05,
+      "loss": 0.6906,
+      "step": 28
+    },
+    {
+      "epoch": 0.06921241050119331,
+      "grad_norm": 0.6458117365837097,
+      "learning_rate": 8.940053768033609e-05,
+      "loss": 0.8969,
+      "step": 29
+    },
+    {
+      "epoch": 0.07159904534606205,
+      "grad_norm": 0.6923385262489319,
+      "learning_rate": 8.83022221559489e-05,
+      "loss": 1.0892,
+      "step": 30
+    },
+    {
+      "epoch": 0.07398568019093078,
+      "grad_norm": 0.5989975929260254,
+      "learning_rate": 8.715724127386972e-05,
+      "loss": 0.6379,
+      "step": 31
+    },
+    {
+      "epoch": 0.07637231503579953,
+      "grad_norm": 0.4596601724624634,
+      "learning_rate": 8.596699001693255e-05,
+      "loss": 0.4745,
+      "step": 32
+    },
+    {
+      "epoch": 0.07875894988066826,
+      "grad_norm": 0.5209793448448181,
+      "learning_rate": 8.473291852294987e-05,
+      "loss": 0.8658,
+      "step": 33
+    },
+    {
+      "epoch": 0.081145584725537,
+      "grad_norm": 0.5878239870071411,
+      "learning_rate": 8.345653031794292e-05,
+      "loss": 0.9537,
+      "step": 34
+    },
+    {
+      "epoch": 0.08353221957040573,
+      "grad_norm": 0.5229330062866211,
+      "learning_rate": 8.213938048432697e-05,
+      "loss": 0.6711,
+      "step": 35
     }
   ],
   "logging_steps": 1,
+  "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 6774057986949120.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf1f8d66d1d9f86da26660a52881d9c4934db98a9e88bd9f6f9ed55aa44562b5
-size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:14dcbf12068500e1009d5791cfb900ba9d71f3d534a83271e8a5061a0b3cbb92
+size 6712