Training in progress, step 2320, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +451 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fafd0f157d14e49e4739550f3f127d870e4c0caf60624531f00c5d7035d51299
 size 13982248

 version https://git-lfs.github.com/spec/v1
+oid sha256:fca914b2057aa482eb7a6841c80c2efe9c097a9f40f833d983af4537dc40f6bb
 size 13982248

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68070370254082a9da3aeac4075c069ea60def96eef668a1fc6d9c0196fc0554
 size 7062522

 version https://git-lfs.github.com/spec/v1
+oid sha256:0648084ec0eae35cf7dd3a294bee444ad33f083ffa2a37e0110a6f2612622237
 size 7062522

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:98d3711de76e8c84da6b52967c082fa25514ac6013e7232a9fdcdac089584cc1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5db6383b70031a203d8f79911eab63df2eb868f69d22da66a6d7b3fea0a2b6f6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dde20670de2d0a6327803d0e03f03b8ccee00551dc9309464bb5c115b97010c1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4fa7f675de7d8161961ca1ab082c7d8425357c049f1a3dc57c1e35db98971b1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0832,
   "eval_steps": 500,
-  "global_step": 1040,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -371,6 +371,454 @@
       "learning_rate": 2.996193909122197e-05,
       "loss": 3.7447,
       "step": 1040
     }
   ],
   "logging_steps": 20,
@@ -378,7 +826,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
-  "total_flos": 2473139331366912.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.1856,
   "eval_steps": 500,
+  "global_step": 2320,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 2.996193909122197e-05,
       "loss": 3.7447,
       "step": 1040
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 26.41890525817871,
+      "learning_rate": 2.995840200683028e-05,
+      "loss": 3.5839,
+      "step": 1060
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 32.88002014160156,
+      "learning_rate": 2.995470801587973e-05,
+      "loss": 3.6606,
+      "step": 1080
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 32.0895881652832,
+      "learning_rate": 2.9950857157118544e-05,
+      "loss": 3.677,
+      "step": 1100
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 37.726783752441406,
+      "learning_rate": 2.9946849470940395e-05,
+      "loss": 3.5546,
+      "step": 1120
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 56.246299743652344,
+      "learning_rate": 2.9942684999384034e-05,
+      "loss": 3.6391,
+      "step": 1140
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 35.675662994384766,
+      "learning_rate": 2.993836378613278e-05,
+      "loss": 3.5918,
+      "step": 1160
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 26.685134887695312,
+      "learning_rate": 2.993388587651412e-05,
+      "loss": 3.6331,
+      "step": 1180
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 27.400333404541016,
+      "learning_rate": 2.992925131749921e-05,
+      "loss": 3.6214,
+      "step": 1200
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 28.501314163208008,
+      "learning_rate": 2.9924460157702378e-05,
+      "loss": 3.6619,
+      "step": 1220
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 30.773778915405273,
+      "learning_rate": 2.991951244738063e-05,
+      "loss": 3.6453,
+      "step": 1240
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 24.701374053955078,
+      "learning_rate": 2.9914408238433095e-05,
+      "loss": 3.7282,
+      "step": 1260
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 27.605117797851562,
+      "learning_rate": 2.990914758440052e-05,
+      "loss": 3.6635,
+      "step": 1280
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 27.829086303710938,
+      "learning_rate": 2.9903730540464668e-05,
+      "loss": 3.5293,
+      "step": 1300
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 40.916263580322266,
+      "learning_rate": 2.9898157163447767e-05,
+      "loss": 3.6976,
+      "step": 1320
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 33.31068420410156,
+      "learning_rate": 2.9892427511811912e-05,
+      "loss": 3.548,
+      "step": 1340
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 29.932533264160156,
+      "learning_rate": 2.9886541645658435e-05,
+      "loss": 3.7486,
+      "step": 1360
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 35.59455490112305,
+      "learning_rate": 2.9880499626727284e-05,
+      "loss": 3.6342,
+      "step": 1380
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 29.93869400024414,
+      "learning_rate": 2.9874301518396377e-05,
+      "loss": 3.6615,
+      "step": 1400
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 43.417213439941406,
+      "learning_rate": 2.986794738568094e-05,
+      "loss": 3.607,
+      "step": 1420
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 52.483917236328125,
+      "learning_rate": 2.9861437295232825e-05,
+      "loss": 3.5937,
+      "step": 1440
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 30.312334060668945,
+      "learning_rate": 2.9854771315339787e-05,
+      "loss": 3.5991,
+      "step": 1460
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 49.459136962890625,
+      "learning_rate": 2.984794951592481e-05,
+      "loss": 3.5261,
+      "step": 1480
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 34.81111526489258,
+      "learning_rate": 2.984097196854534e-05,
+      "loss": 3.6818,
+      "step": 1500
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 34.721946716308594,
+      "learning_rate": 2.9833838746392544e-05,
+      "loss": 3.5636,
+      "step": 1520
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 31.46621322631836,
+      "learning_rate": 2.982654992429056e-05,
+      "loss": 3.5597,
+      "step": 1540
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 38.78512191772461,
+      "learning_rate": 2.981910557869566e-05,
+      "loss": 3.661,
+      "step": 1560
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 27.38837432861328,
+      "learning_rate": 2.981150578769553e-05,
+      "loss": 3.6173,
+      "step": 1580
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 45.619632720947266,
+      "learning_rate": 2.980375063100836e-05,
+      "loss": 3.6632,
+      "step": 1600
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 30.708433151245117,
+      "learning_rate": 2.979584018998209e-05,
+      "loss": 3.5165,
+      "step": 1620
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 35.472938537597656,
+      "learning_rate": 2.97877745475935e-05,
+      "loss": 3.5157,
+      "step": 1640
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 39.029415130615234,
+      "learning_rate": 2.9779553788447358e-05,
+      "loss": 3.6259,
+      "step": 1660
+    },
+    {
+      "epoch": 0.13,
+      "grad_norm": 57.90769577026367,
+      "learning_rate": 2.977117799877554e-05,
+      "loss": 3.6378,
+      "step": 1680
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 36.95255661010742,
+      "learning_rate": 2.9762647266436115e-05,
+      "loss": 3.5845,
+      "step": 1700
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 27.456787109375,
+      "learning_rate": 2.9753961680912432e-05,
+      "loss": 3.6647,
+      "step": 1720
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 27.383285522460938,
+      "learning_rate": 2.9745121333312166e-05,
+      "loss": 3.6668,
+      "step": 1740
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 26.555049896240234,
+      "learning_rate": 2.9736126316366385e-05,
+      "loss": 3.6617,
+      "step": 1760
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 34.009620666503906,
+      "learning_rate": 2.9726976724428563e-05,
+      "loss": 3.572,
+      "step": 1780
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 45.44181823730469,
+      "learning_rate": 2.9717672653473588e-05,
+      "loss": 3.6354,
+      "step": 1800
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 30.79588508605957,
+      "learning_rate": 2.9708214201096758e-05,
+      "loss": 3.6953,
+      "step": 1820
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 46.61872482299805,
+      "learning_rate": 2.9698601466512767e-05,
+      "loss": 3.5373,
+      "step": 1840
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 42.86500930786133,
+      "learning_rate": 2.9688834550554647e-05,
+      "loss": 3.5982,
+      "step": 1860
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 33.480289459228516,
+      "learning_rate": 2.9678913555672733e-05,
+      "loss": 3.6024,
+      "step": 1880
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 36.41415786743164,
+      "learning_rate": 2.966883858593356e-05,
+      "loss": 3.4843,
+      "step": 1900
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 41.39873123168945,
+      "learning_rate": 2.9658609747018796e-05,
+      "loss": 3.5257,
+      "step": 1920
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 31.24024200439453,
+      "learning_rate": 2.964822714622412e-05,
+      "loss": 3.5927,
+      "step": 1940
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 52.78026580810547,
+      "learning_rate": 2.9637690892458103e-05,
+      "loss": 3.4678,
+      "step": 1960
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 27.40117835998535,
+      "learning_rate": 2.962700109624106e-05,
+      "loss": 3.5541,
+      "step": 1980
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 23.172683715820312,
+      "learning_rate": 2.961615786970389e-05,
+      "loss": 3.5713,
+      "step": 2000
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 24.177541732788086,
+      "learning_rate": 2.960516132658692e-05,
+      "loss": 3.585,
+      "step": 2020
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 44.673912048339844,
+      "learning_rate": 2.9594011582238672e-05,
+      "loss": 3.5035,
+      "step": 2040
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 35.91664505004883,
+      "learning_rate": 2.95827087536147e-05,
+      "loss": 3.6404,
+      "step": 2060
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 27.3450870513916,
+      "learning_rate": 2.9571252959276313e-05,
+      "loss": 3.5121,
+      "step": 2080
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 25.66405487060547,
+      "learning_rate": 2.955964431938939e-05,
+      "loss": 3.5009,
+      "step": 2100
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 24.1674861907959,
+      "learning_rate": 2.9547882955723052e-05,
+      "loss": 3.5482,
+      "step": 2120
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 49.72268295288086,
+      "learning_rate": 2.953596899164846e-05,
+      "loss": 3.4969,
+      "step": 2140
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 26.238168716430664,
+      "learning_rate": 2.9523902552137436e-05,
+      "loss": 3.5541,
+      "step": 2160
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 30.524545669555664,
+      "learning_rate": 2.951168376376124e-05,
+      "loss": 3.6343,
+      "step": 2180
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 38.179908752441406,
+      "learning_rate": 2.9499312754689168e-05,
+      "loss": 3.4795,
+      "step": 2200
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 32.98453903198242,
+      "learning_rate": 2.9486789654687256e-05,
+      "loss": 3.6333,
+      "step": 2220
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 26.77848243713379,
+      "learning_rate": 2.94741145951169e-05,
+      "loss": 3.5654,
+      "step": 2240
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 27.737852096557617,
+      "learning_rate": 2.9461287708933475e-05,
+      "loss": 3.5044,
+      "step": 2260
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 34.2584342956543,
+      "learning_rate": 2.9448309130684944e-05,
+      "loss": 3.5979,
+      "step": 2280
+    },
+    {
+      "epoch": 0.18,
+      "grad_norm": 57.86616897583008,
+      "learning_rate": 2.9435178996510456e-05,
+      "loss": 3.5726,
+      "step": 2300
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 37.64597702026367,
+      "learning_rate": 2.9421897444138902e-05,
+      "loss": 3.5913,
+      "step": 2320
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 20,
+  "total_flos": 5493973373190144.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null