Training in progress, step 120000

Browse files

Files changed (13) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +2 -2
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +2 -2
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3
pytorch_model.bin +1 -1

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5077b4837e7db854bd139cb7b83c4884833063cbbcc0c135891079eb84eb5023
 size 202194449

 version https://git-lfs.github.com/spec/v1
+oid sha256:0147a34f11e7c1f08c8f5a1a7b664f7685f6024ff50f7e310c340458a7ae47df
 size 202194449

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b862e1a9d6ed89097b4519d1b3cde5a169841069d056cef214437ef6987452e1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6fe95a3571e9df68816ac46ccf405f0fd55b7d69662da0acabe531bd8d6e1a7
 size 102501541

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a28dddede4fc4bc0b2366a2adf3a2a7cc15aa053d48f5784818c30e8f581c8c
-size 14567

 version https://git-lfs.github.com/spec/v1
+oid sha256:13dfeb18522f460b3bcc4a8a207781907714f968fa9018d9e319a8e4cb1a2731
+size 14439

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9027fde6d34c0d3df23bed16cbdb4322526cc2d0a788564dc5bdbc1a2a3cc939
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:c93d998395352ee5e4e32f058b4acd76a3b9750cf1106a383769865ab27f4f83
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ba2bcf5cf6c5910865dc9ad1b993b583122f7246dff018513acde53be4e1cef
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf0bf23f928568c7a3122050cfa99355815fe8c7f93429bc6536f64596e3cd0c
+size 14503

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9c0ded2329ef53920cb585a63eb47585e2a859a8641b80120f9a203cf7e7c919
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ea81d3c492be115b8468d1cd1e3438b2c19fcafe21dc467d287c05e9211418f
 size 14503

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a0b2023ad615bca290ded4b09be5cde4d541c3da29f7726a5a43e59cc6dddea5
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ccdbb1080343e6446b837638f679019013e2908bdad70d4dd13ba9861cbc74c
 size 14503

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41b811cc0631c90302be59bb28064c0b766f48934ca956ae5177890d0b44ff21
-size 14439

 version https://git-lfs.github.com/spec/v1
+oid sha256:b675771b8e40ada562deddfe20382c77a27fda6482714c03a215febc190e3d96
+size 14503

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ace9c134526b185b1490c715e5c10cccba9ced2c0bbb4bf14ec35ff87f84192
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:6547f6037906559622b01a609d68d147aca5926d35d56c61c1cb91881c5b9c16
 size 14503

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:094bb976952135775a16c6a0f91bc9d97a98726f15f9c9198b320fb5dc6d70ce
-size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e726e73c63cfe3e121582d5f26c95cee1a06ebdb69c1f3b859e1406e64a4d59
+size 14439

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a36392859753540b5ff28a6690e0fb35c1157de322529d1ae210898db91ddda7
 size 623

 version https://git-lfs.github.com/spec/v1
+oid sha256:60ddf5c33f60196860027b40e8443017b8ed479cc5dfb73f8a076fe07f546fd4
 size 623

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.370201292931769,
-  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2206,11 +2206,211 @@
       "eval_samples_per_second": 1850.736,
       "eval_steps_per_second": 29.612,
       "step": 110000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
-  "total_flos": 3.5143345626635724e+21,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.676583228652839,
+  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1850.736,
       "eval_steps_per_second": 29.612,
       "step": 110000
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 0.0002774275491977922,
+      "loss": 0.3703,
+      "step": 110500
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 0.0002771699479464853,
+      "loss": 0.3701,
+      "step": 111000
+    },
+    {
+      "epoch": 3.4,
+      "eval_loss": 0.7903389930725098,
+      "eval_runtime": 0.5256,
+      "eval_samples_per_second": 1902.556,
+      "eval_steps_per_second": 30.441,
+      "step": 111000
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 0.00027691101066420104,
+      "loss": 0.3694,
+      "step": 111500
+    },
+    {
+      "epoch": 3.43,
+      "learning_rate": 0.0002766507401826361,
+      "loss": 0.3692,
+      "step": 112000
+    },
+    {
+      "epoch": 3.43,
+      "eval_loss": 0.7830519080162048,
+      "eval_runtime": 0.5162,
+      "eval_samples_per_second": 1937.313,
+      "eval_steps_per_second": 30.997,
+      "step": 112000
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 0.0002763891393480666,
+      "loss": 0.3694,
+      "step": 112500
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 0.0002761262110213175,
+      "loss": 0.3686,
+      "step": 113000
+    },
+    {
+      "epoch": 3.46,
+      "eval_loss": 0.7800700664520264,
+      "eval_runtime": 0.5106,
+      "eval_samples_per_second": 1958.342,
+      "eval_steps_per_second": 31.333,
+      "step": 113000
+    },
+    {
+      "epoch": 3.48,
+      "learning_rate": 0.00027586195807773083,
+      "loss": 0.3689,
+      "step": 113500
+    },
+    {
+      "epoch": 3.49,
+      "learning_rate": 0.00027559638340713435,
+      "loss": 0.3685,
+      "step": 114000
+    },
+    {
+      "epoch": 3.49,
+      "eval_loss": 0.7914212942123413,
+      "eval_runtime": 0.5261,
+      "eval_samples_per_second": 1900.85,
+      "eval_steps_per_second": 30.414,
+      "step": 114000
+    },
+    {
+      "epoch": 3.51,
+      "learning_rate": 0.00027532948991381025,
+      "loss": 0.3686,
+      "step": 114500
+    },
+    {
+      "epoch": 3.52,
+      "learning_rate": 0.00027506128051646287,
+      "loss": 0.3681,
+      "step": 115000
+    },
+    {
+      "epoch": 3.52,
+      "eval_loss": 0.7931650280952454,
+      "eval_runtime": 0.5617,
+      "eval_samples_per_second": 1780.334,
+      "eval_steps_per_second": 28.485,
+      "step": 115000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 0.00027479175814818733,
+      "loss": 0.368,
+      "step": 115500
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 0.000274520925756437,
+      "loss": 0.3679,
+      "step": 116000
+    },
+    {
+      "epoch": 3.55,
+      "eval_loss": 0.7921015620231628,
+      "eval_runtime": 0.5338,
+      "eval_samples_per_second": 1873.268,
+      "eval_steps_per_second": 29.972,
+      "step": 116000
+    },
+    {
+      "epoch": 3.57,
+      "learning_rate": 0.00027424878630299157,
+      "loss": 0.3673,
+      "step": 116500
+    },
+    {
+      "epoch": 3.58,
+      "learning_rate": 0.0002739753427639244,
+      "loss": 0.3673,
+      "step": 117000
+    },
+    {
+      "epoch": 3.58,
+      "eval_loss": 0.7863946557044983,
+      "eval_runtime": 0.528,
+      "eval_samples_per_second": 1893.847,
+      "eval_steps_per_second": 30.302,
+      "step": 117000
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 0.0002737005981295704,
+      "loss": 0.3673,
+      "step": 117500
+    },
+    {
+      "epoch": 3.62,
+      "learning_rate": 0.0002734245554044927,
+      "loss": 0.3668,
+      "step": 118000
+    },
+    {
+      "epoch": 3.62,
+      "eval_loss": 0.7858835458755493,
+      "eval_runtime": 0.5221,
+      "eval_samples_per_second": 1915.181,
+      "eval_steps_per_second": 30.643,
+      "step": 118000
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 0.0002731472176074504,
+      "loss": 0.3667,
+      "step": 118500
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.0002728685877713653,
+      "loss": 0.3669,
+      "step": 119000
+    },
+    {
+      "epoch": 3.65,
+      "eval_loss": 0.786138653755188,
+      "eval_runtime": 0.5283,
+      "eval_samples_per_second": 1893.025,
+      "eval_steps_per_second": 30.288,
+      "step": 119000
+    },
+    {
+      "epoch": 3.66,
+      "learning_rate": 0.0002725886689432884,
+      "loss": 0.3664,
+      "step": 119500
+    },
+    {
+      "epoch": 3.68,
+      "learning_rate": 0.0002723074641843674,
+      "loss": 0.3664,
+      "step": 120000
+    },
+    {
+      "epoch": 3.68,
+      "eval_loss": 0.7753082513809204,
+      "eval_runtime": 0.539,
+      "eval_samples_per_second": 1855.209,
+      "eval_steps_per_second": 29.683,
+      "step": 120000
     }
   ],
   "max_steps": 500000,
   "num_train_epochs": 16,
+  "total_flos": 3.8338217014380724e+21,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b862e1a9d6ed89097b4519d1b3cde5a169841069d056cef214437ef6987452e1
 size 102501541

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6fe95a3571e9df68816ac46ccf405f0fd55b7d69662da0acabe531bd8d6e1a7
 size 102501541