add 2epoch model

Browse files

Files changed (4) hide show

adapter_model.bin +1 -1
scaler.pt +1 -1
scheduler.pt +1 -1
trainer_state.json +243 -3

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12ca454d8ba439b4cef7beede18ffae063dd2beec9865effd22c0da7f6d8401f
 size 84001933

 version https://git-lfs.github.com/spec/v1
+oid sha256:f001994ef638f77b8d6ebb48a26a7c118864bf78afac5811f536c9fc2f148e48
 size 84001933

scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea735ae0c189065358f008d523f4f1807a7fa29c59cc7362a0139b7f2f3b08c7
 size 557

 version https://git-lfs.github.com/spec/v1
+oid sha256:1269a10971cdfaf218d0248ae69edd4de991ba32b7f1d7f4ab1bab4b303cdf82
 size 557

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d18ab954df86b57e3eba640e829940adb19509a7bba9768a5cd80012e190d0f
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:99f4707cc6da43569e1ae1afbc47e184230167a1ad359ef368f74abc427c732b
 size 627

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.998109640831758,
-  "global_step": 396,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -240,11 +240,251 @@
       "learning_rate": 3.667279411764706e-05,
       "loss": 0.7451,
       "step": 390
     }
   ],
   "max_steps": 1188,
   "num_train_epochs": 3,
-  "total_flos": 2.029497948313328e+19,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9987397605545052,
+  "global_step": 793,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.667279411764706e-05,
       "loss": 0.7451,
       "step": 390
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.6213235294117646e-05,
+      "loss": 0.7491,
+      "step": 400
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.575367647058824e-05,
+      "loss": 0.7484,
+      "step": 410
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3.529411764705883e-05,
+      "loss": 0.7423,
+      "step": 420
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 3.4834558823529415e-05,
+      "loss": 0.7458,
+      "step": 430
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.4375e-05,
+      "loss": 0.7428,
+      "step": 440
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3.391544117647059e-05,
+      "loss": 0.7423,
+      "step": 450
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3.345588235294118e-05,
+      "loss": 0.7396,
+      "step": 460
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.2996323529411764e-05,
+      "loss": 0.7426,
+      "step": 470
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 3.253676470588236e-05,
+      "loss": 0.7421,
+      "step": 480
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 3.2077205882352946e-05,
+      "loss": 0.7377,
+      "step": 490
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 3.161764705882353e-05,
+      "loss": 0.7358,
+      "step": 500
+    },
+    {
+      "epoch": 1.29,
+      "learning_rate": 3.115808823529412e-05,
+      "loss": 0.7346,
+      "step": 510
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 3.069852941176471e-05,
+      "loss": 0.7335,
+      "step": 520
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 3.0238970588235292e-05,
+      "loss": 0.7242,
+      "step": 530
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 2.9779411764705883e-05,
+      "loss": 0.7295,
+      "step": 540
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 2.9319852941176474e-05,
+      "loss": 0.7294,
+      "step": 550
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 2.8860294117647058e-05,
+      "loss": 0.7292,
+      "step": 560
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 2.840073529411765e-05,
+      "loss": 0.7238,
+      "step": 570
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 2.7941176470588236e-05,
+      "loss": 0.7383,
+      "step": 580
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 2.7481617647058827e-05,
+      "loss": 0.7363,
+      "step": 590
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 2.702205882352941e-05,
+      "loss": 0.7269,
+      "step": 600
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 2.6562500000000002e-05,
+      "loss": 0.7408,
+      "step": 610
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 2.6102941176470593e-05,
+      "loss": 0.7341,
+      "step": 620
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 2.5643382352941177e-05,
+      "loss": 0.7372,
+      "step": 630
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 2.5183823529411764e-05,
+      "loss": 0.7333,
+      "step": 640
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 2.4724264705882355e-05,
+      "loss": 0.7261,
+      "step": 650
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 2.4264705882352942e-05,
+      "loss": 0.7305,
+      "step": 660
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 2.380514705882353e-05,
+      "loss": 0.7339,
+      "step": 670
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 2.334558823529412e-05,
+      "loss": 0.7351,
+      "step": 680
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.2886029411764705e-05,
+      "loss": 0.7307,
+      "step": 690
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 2.2426470588235296e-05,
+      "loss": 0.7354,
+      "step": 700
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 2.1966911764705883e-05,
+      "loss": 0.7254,
+      "step": 710
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 2.1507352941176474e-05,
+      "loss": 0.7342,
+      "step": 720
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 2.104779411764706e-05,
+      "loss": 0.7236,
+      "step": 730
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 2.058823529411765e-05,
+      "loss": 0.7256,
+      "step": 740
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.0128676470588236e-05,
+      "loss": 0.7299,
+      "step": 750
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.9669117647058824e-05,
+      "loss": 0.7185,
+      "step": 760
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.9209558823529414e-05,
+      "loss": 0.7333,
+      "step": 770
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.7229,
+      "step": 780
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 1.829044117647059e-05,
+      "loss": 0.7239,
+      "step": 790
     }
   ],
   "max_steps": 1188,
   "num_train_epochs": 3,
+  "total_flos": 4.058995894908669e+19,
   "trial_name": null,
   "trial_params": null
 }