Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +187 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59f2a0e4d1ec46e310817b409c279cdfb76e012d84ae29514858e8829c2e98b0
 size 323014168

 version https://git-lfs.github.com/spec/v1
+oid sha256:648f431bd04ca064b9d62dfda13e538ee57247b95cb78cf7e1b76bbb526eb428
 size 323014168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:02c15e63cd01520ac428378c7516bbbf0731d601cdceaf58422bba820a0cfe30
 size 646253418

 version https://git-lfs.github.com/spec/v1
+oid sha256:1da92f1019dc6fe0ee17f5a3d3245020d61bf7b2d4077c547ce4479ce7ec8b66
 size 646253418

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:038c93a99f2256bd1112b2abb0f99ff689c77d5a37627bad4fb12c1d5aa09417
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e82e73dc7a81eb40a6a26bb9593826dee97625a89a4acf93245d62a559cc2baf
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:796cb153eb430b749439c29bedb7cedecd3fcd5a52062d321354f20cd7cc7ca1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:98a1b920176df31f630341ee05dc6e400a3ac20f396e9d4e0c4bc984860f830d
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ae9257ae135168e371ddcee3942f46cdb6b5e551fe07097f8b255f7c8ba32bee
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f12a8e6245f0933cc1ee8e2cbe5e432bd2af228e9ea591b2893c6c1851d54b7
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65711254d67e46c27795a21e1bd427903ea081b1bcf9911c7d8287b0445de1d1
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b4b110bfcaa14e292447bd580e9170a5b300f4e8b6ad08a3a5570adb8d46395
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d271cdb95f63cd655315f063ca2e25c78dc5ae4275523c5d4f80f367586b3351
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5607f6de446164d9d9adb8b91c44cec55b14aa391e24ba5637c08b834eedda2a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.046718056528848396,
   "eval_steps": 25,
-  "global_step": 25,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -198,6 +198,189 @@
       "eval_samples_per_second": 15.482,
       "eval_steps_per_second": 4.025,
       "step": 25
     }
   ],
   "logging_steps": 1,
@@ -212,12 +395,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 2.8506943161945293e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.09343611305769679,
   "eval_steps": 25,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 15.482,
       "eval_steps_per_second": 4.025,
       "step": 25
+    },
+    {
+      "epoch": 0.04858677879000234,
+      "grad_norm": 0.5069453120231628,
+      "learning_rate": 5.500000000000001e-05,
+      "loss": 0.4544,
+      "step": 26
+    },
+    {
+      "epoch": 0.050455501051156273,
+      "grad_norm": 0.48462429642677307,
+      "learning_rate": 5.205685918464356e-05,
+      "loss": 0.0792,
+      "step": 27
+    },
+    {
+      "epoch": 0.05232422331231021,
+      "grad_norm": 0.31281939148902893,
+      "learning_rate": 4.912632135009769e-05,
+      "loss": 0.0428,
+      "step": 28
+    },
+    {
+      "epoch": 0.054192945573464144,
+      "grad_norm": 0.5026974678039551,
+      "learning_rate": 4.6220935509274235e-05,
+      "loss": 0.0421,
+      "step": 29
+    },
+    {
+      "epoch": 0.05606166783461808,
+      "grad_norm": 0.2258158177137375,
+      "learning_rate": 4.3353142970386564e-05,
+      "loss": 0.0246,
+      "step": 30
+    },
+    {
+      "epoch": 0.057930390095772014,
+      "grad_norm": 0.23461851477622986,
+      "learning_rate": 4.053522406135775e-05,
+      "loss": 0.024,
+      "step": 31
+    },
+    {
+      "epoch": 0.05979911235692595,
+      "grad_norm": 0.11681634187698364,
+      "learning_rate": 3.777924554357096e-05,
+      "loss": 0.0136,
+      "step": 32
+    },
+    {
+      "epoch": 0.06166783461807989,
+      "grad_norm": 0.1917366236448288,
+      "learning_rate": 3.509700894014496e-05,
+      "loss": 0.0161,
+      "step": 33
+    },
+    {
+      "epoch": 0.06353655687923382,
+      "grad_norm": 0.274162620306015,
+      "learning_rate": 3.250000000000001e-05,
+      "loss": 0.0163,
+      "step": 34
+    },
+    {
+      "epoch": 0.06540527914038775,
+      "grad_norm": 0.23670166730880737,
+      "learning_rate": 2.9999339514117912e-05,
+      "loss": 0.0181,
+      "step": 35
+    },
+    {
+      "epoch": 0.0672740014015417,
+      "grad_norm": 0.2024206966161728,
+      "learning_rate": 2.760573569460757e-05,
+      "loss": 0.0134,
+      "step": 36
+    },
+    {
+      "epoch": 0.06914272366269564,
+      "grad_norm": 0.21989701688289642,
+      "learning_rate": 2.53294383204969e-05,
+      "loss": 0.0175,
+      "step": 37
+    },
+    {
+      "epoch": 0.07101144592384957,
+      "grad_norm": 0.6455181241035461,
+      "learning_rate": 2.3180194846605367e-05,
+      "loss": 0.3226,
+      "step": 38
+    },
+    {
+      "epoch": 0.07288016818500351,
+      "grad_norm": 0.2669941782951355,
+      "learning_rate": 2.1167208663446025e-05,
+      "loss": 0.0899,
+      "step": 39
+    },
+    {
+      "epoch": 0.07474889044615744,
+      "grad_norm": 0.1710038036108017,
+      "learning_rate": 1.9299099686894423e-05,
+      "loss": 0.0283,
+      "step": 40
+    },
+    {
+      "epoch": 0.07661761270731138,
+      "grad_norm": 0.18049222230911255,
+      "learning_rate": 1.758386744638546e-05,
+      "loss": 0.0237,
+      "step": 41
+    },
+    {
+      "epoch": 0.07848633496846531,
+      "grad_norm": 0.25030824542045593,
+      "learning_rate": 1.602885682970026e-05,
+      "loss": 0.017,
+      "step": 42
+    },
+    {
+      "epoch": 0.08035505722961925,
+      "grad_norm": 0.1377391815185547,
+      "learning_rate": 1.464072663102903e-05,
+      "loss": 0.013,
+      "step": 43
+    },
+    {
+      "epoch": 0.08222377949077318,
+      "grad_norm": 0.183451846241951,
+      "learning_rate": 1.3425421036992098e-05,
+      "loss": 0.0164,
+      "step": 44
+    },
+    {
+      "epoch": 0.08409250175192712,
+      "grad_norm": 0.10873322188854218,
+      "learning_rate": 1.2388144172720251e-05,
+      "loss": 0.0104,
+      "step": 45
+    },
+    {
+      "epoch": 0.08596122401308105,
+      "grad_norm": 0.11998525261878967,
+      "learning_rate": 1.1533337816991932e-05,
+      "loss": 0.0081,
+      "step": 46
+    },
+    {
+      "epoch": 0.08782994627423499,
+      "grad_norm": 0.17861168086528778,
+      "learning_rate": 1.0864662381854632e-05,
+      "loss": 0.0076,
+      "step": 47
+    },
+    {
+      "epoch": 0.08969866853538892,
+      "grad_norm": 0.12124334275722504,
+      "learning_rate": 1.0384981238178534e-05,
+      "loss": 0.0075,
+      "step": 48
+    },
+    {
+      "epoch": 0.09156739079654286,
+      "grad_norm": 0.168930783867836,
+      "learning_rate": 1.0096348454262845e-05,
+      "loss": 0.0089,
+      "step": 49
+    },
+    {
+      "epoch": 0.09343611305769679,
+      "grad_norm": 0.11925555020570755,
+      "learning_rate": 1e-05,
+      "loss": 0.0083,
+      "step": 50
+    },
+    {
+      "epoch": 0.09343611305769679,
+      "eval_loss": 0.016863174736499786,
+      "eval_runtime": 3.2332,
+      "eval_samples_per_second": 15.465,
+      "eval_steps_per_second": 4.021,
+      "step": 50
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.693479793710858e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null