:tada: update model 20230703

Browse files

Files changed (7) hide show

config.json +1 -1
optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +190 -184
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "_commit_hash": null,
-  "_name_or_path": "20230623_10_epochs/",
   "architectures": [
     "VisionEncoderDecoderModel"
   ],

 {
   "_commit_hash": null,
+  "_name_or_path": "epochs_10/",
   "architectures": [
     "VisionEncoderDecoderModel"
   ],

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:094af1d7c3a479812a879247e68fffd18ceed5101c22c6383d57a3520b3b57a7
 size 6036958

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4093e367e8b29225f56e34454e7ba3592096419b9593738fca1cc2866372c58
 size 6036958

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01e260ab6ba71d773d887325817cfb2053c072121590b32350f85a7093168b5e
 size 2233126973

 version https://git-lfs.github.com/spec/v1
+oid sha256:9dc981772b6511fe1414a2ba29687bd62aaa3b2ac8324a14e77a0412109c3f40
 size 2233126973

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:336ec977f27105973c756a846ddb09ec5f69c7ace77a323a6f990ddc680ad26d
 size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:31f264dff15f601257953d94b9d974863b70da54bcdd7f88d8dd26fa6d88f00c
 size 14511

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0185468567c7b4764e44451dd4c646d937b68f7914805db04a53b4ed7d217ff
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:70a0fed77283d69bee0d73b41955100ee1ff922fc17871087fb2cef1e4c37fa4
 size 627

trainer_state.json CHANGED Viewed

@@ -1,270 +1,276 @@
 {
-  "best_metric": 0.5735754370689392,
-  "best_model_checkpoint": "./10_epochs/checkpoint-1227",
-  "epoch": 19.95926680244399,
-  "global_step": 4900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_cer": 0.14323795085591562,
-      "eval_loss": 0.8977997899055481,
-      "eval_runtime": 219.933,
-      "eval_samples_per_second": 8.584,
-      "eval_steps_per_second": 0.537,
-      "eval_wer": 0.31597857772354415,
-      "step": 245
     },
     {
-      "epoch": 2.0,
-      "eval_cer": 0.10922872844419178,
-      "eval_loss": 0.7104432582855225,
-      "eval_runtime": 224.2405,
-      "eval_samples_per_second": 8.42,
-      "eval_steps_per_second": 0.526,
-      "eval_wer": 0.2646600230492848,
-      "step": 491
     },
     {
-      "epoch": 2.04,
-      "learning_rate": 3.5934693877551023e-05,
-      "loss": 1.135,
-      "step": 500
     },
     {
       "epoch": 3.0,
-      "eval_cer": 0.0974796285768429,
-      "eval_loss": 0.6549474596977234,
-      "eval_runtime": 222.8995,
-      "eval_samples_per_second": 8.47,
-      "eval_steps_per_second": 0.529,
-      "eval_wer": 0.24974577994712224,
-      "step": 736
     },
     {
-      "epoch": 4.0,
-      "eval_cer": 0.09101130692944223,
-      "eval_loss": 0.5960158109664917,
-      "eval_runtime": 229.9566,
-      "eval_samples_per_second": 8.21,
-      "eval_steps_per_second": 0.513,
-      "eval_wer": 0.22676428716697172,
-      "step": 982
     },
     {
-      "epoch": 4.07,
-      "learning_rate": 3.18530612244898e-05,
-      "loss": 0.3981,
-      "step": 1000
     },
     {
       "epoch": 5.0,
-      "eval_cer": 0.08393658012759775,
-      "eval_loss": 0.5735754370689392,
-      "eval_runtime": 227.0275,
-      "eval_samples_per_second": 8.316,
       "eval_steps_per_second": 0.52,
-      "eval_wer": 0.21910378957358823,
-      "step": 1227
     },
     {
-      "epoch": 6.0,
-      "eval_cer": 0.0859958309645632,
-      "eval_loss": 0.5844059586524963,
-      "eval_runtime": 229.4286,
-      "eval_samples_per_second": 8.229,
-      "eval_steps_per_second": 0.514,
-      "eval_wer": 0.21964612568639413,
-      "step": 1473
     },
     {
-      "epoch": 6.11,
-      "learning_rate": 2.7771428571428575e-05,
-      "loss": 0.202,
-      "step": 1500
     },
     {
       "epoch": 7.0,
-      "eval_cer": 0.0815109595098225,
-      "eval_loss": 0.5800897479057312,
-      "eval_runtime": 227.943,
-      "eval_samples_per_second": 8.283,
-      "eval_steps_per_second": 0.518,
-      "eval_wer": 0.2127991322622195,
-      "step": 1718
     },
     {
-      "epoch": 8.0,
-      "eval_cer": 0.07897163792558903,
-      "eval_loss": 0.5767439007759094,
-      "eval_runtime": 227.4707,
-      "eval_samples_per_second": 8.3,
-      "eval_steps_per_second": 0.519,
-      "eval_wer": 0.20893498745847738,
-      "step": 1964
     },
     {
-      "epoch": 8.15,
-      "learning_rate": 2.368979591836735e-05,
-      "loss": 0.0974,
-      "step": 2000
     },
     {
       "epoch": 9.0,
-      "eval_cer": 0.07981807845366685,
-      "eval_loss": 0.5934405326843262,
-      "eval_runtime": 226.6088,
-      "eval_samples_per_second": 8.332,
-      "eval_steps_per_second": 0.521,
-      "eval_wer": 0.20900277947257814,
-      "step": 2209
     },
     {
       "epoch": 10.0,
-      "eval_cer": 0.07784726170172447,
-      "eval_loss": 0.5886004567146301,
-      "eval_runtime": 229.8162,
-      "eval_samples_per_second": 8.215,
-      "eval_steps_per_second": 0.513,
-      "eval_wer": 0.20568097078164194,
-      "step": 2455
     },
     {
-      "epoch": 10.18,
-      "learning_rate": 1.9608163265306123e-05,
-      "loss": 0.0484,
-      "step": 2500
     },
     {
       "epoch": 11.0,
-      "eval_cer": 0.07571221022045355,
-      "eval_loss": 0.5894474983215332,
-      "eval_runtime": 227.5046,
-      "eval_samples_per_second": 8.299,
-      "eval_steps_per_second": 0.519,
-      "eval_wer": 0.2007999457663887,
-      "step": 2700
     },
     {
       "epoch": 12.0,
-      "eval_cer": 0.07457520055587138,
-      "eval_loss": 0.5967251658439636,
-      "eval_runtime": 226.8733,
-      "eval_samples_per_second": 8.322,
-      "eval_steps_per_second": 0.52,
-      "eval_wer": 0.19713917700494882,
-      "step": 2946
     },
     {
-      "epoch": 12.22,
-      "learning_rate": 1.5526530612244898e-05,
-      "loss": 0.0228,
-      "step": 3000
     },
     {
       "epoch": 13.0,
-      "eval_cer": 0.07259175036321142,
-      "eval_loss": 0.5949315428733826,
-      "eval_runtime": 226.9515,
-      "eval_samples_per_second": 8.319,
-      "eval_steps_per_second": 0.52,
-      "eval_wer": 0.19449528845502,
-      "step": 3191
     },
     {
       "epoch": 14.0,
-      "eval_cer": 0.07228854778598952,
-      "eval_loss": 0.6077913641929626,
-      "eval_runtime": 227.2585,
-      "eval_samples_per_second": 8.308,
       "eval_steps_per_second": 0.519,
-      "eval_wer": 0.19198698393329267,
-      "step": 3437
     },
     {
-      "epoch": 14.26,
-      "learning_rate": 1.1444897959183673e-05,
-      "loss": 0.0096,
-      "step": 3500
     },
     {
       "epoch": 15.0,
-      "eval_cer": 0.07068410081485693,
-      "eval_loss": 0.6065597534179688,
-      "eval_runtime": 228.2197,
-      "eval_samples_per_second": 8.273,
-      "eval_steps_per_second": 0.517,
-      "eval_wer": 0.18791946308724833,
-      "step": 3682
     },
     {
       "epoch": 16.0,
-      "eval_cer": 0.069900827490367,
-      "eval_loss": 0.6031419038772583,
-      "eval_runtime": 227.3291,
-      "eval_samples_per_second": 8.305,
-      "eval_steps_per_second": 0.519,
-      "eval_wer": 0.18819063114365128,
-      "step": 3928
     },
     {
-      "epoch": 16.29,
-      "learning_rate": 7.363265306122449e-06,
-      "loss": 0.0046,
-      "step": 4000
     },
     {
       "epoch": 17.0,
-      "eval_cer": 0.0695344577095572,
-      "eval_loss": 0.6049824357032776,
-      "eval_runtime": 227.4174,
-      "eval_samples_per_second": 8.302,
-      "eval_steps_per_second": 0.519,
-      "eval_wer": 0.18541115856552098,
-      "step": 4173
     },
     {
       "epoch": 18.0,
-      "eval_cer": 0.06955972459099236,
-      "eval_loss": 0.612740159034729,
-      "eval_runtime": 227.4935,
-      "eval_samples_per_second": 8.299,
       "eval_steps_per_second": 0.519,
-      "eval_wer": 0.18724154294624093,
-      "step": 4419
     },
     {
-      "epoch": 18.33,
-      "learning_rate": 3.2816326530612246e-06,
-      "loss": 0.0024,
-      "step": 4500
     },
     {
       "epoch": 19.0,
-      "eval_cer": 0.06921862169161772,
-      "eval_loss": 0.6128825545310974,
-      "eval_runtime": 227.7754,
-      "eval_samples_per_second": 8.289,
-      "eval_steps_per_second": 0.518,
-      "eval_wer": 0.18588570266422616,
-      "step": 4664
     },
     {
-      "epoch": 19.96,
-      "eval_cer": 0.06909228728444192,
-      "eval_loss": 0.6125448942184448,
-      "eval_runtime": 228.0343,
-      "eval_samples_per_second": 8.279,
-      "eval_steps_per_second": 0.517,
-      "eval_wer": 0.18520778252321876,
-      "step": 4900
     }
   ],
-  "max_steps": 4900,
   "num_train_epochs": 20,
-  "total_flos": 4.212622464214232e+20,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.5421165227890015,
+  "best_model_checkpoint": "./20230701_models/checkpoint-1099",
+  "epoch": 19.94540491355778,
+  "global_step": 5480,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_cer": 0.10819683151455398,
+      "eval_loss": 0.6883996725082397,
+      "eval_runtime": 259.3566,
+      "eval_samples_per_second": 8.143,
+      "eval_steps_per_second": 0.509,
+      "eval_wer": 0.26681723843242583,
+      "step": 274
     },
     {
+      "epoch": 1.82,
+      "learning_rate": 3.635766423357665e-05,
+      "loss": 0.9397,
+      "step": 500
     },
     {
+      "epoch": 2.0,
+      "eval_cer": 0.08392901158491496,
+      "eval_loss": 0.5709623694419861,
+      "eval_runtime": 251.7707,
+      "eval_samples_per_second": 8.389,
+      "eval_steps_per_second": 0.524,
+      "eval_wer": 0.2248809669149066,
+      "step": 549
     },
     {
       "epoch": 3.0,
+      "eval_cer": 0.07773321083648912,
+      "eval_loss": 0.5516401529312134,
+      "eval_runtime": 253.1328,
+      "eval_samples_per_second": 8.343,
+      "eval_steps_per_second": 0.521,
+      "eval_wer": 0.20919301672567453,
+      "step": 824
     },
     {
+      "epoch": 3.64,
+      "learning_rate": 3.270802919708029e-05,
+      "loss": 0.2569,
+      "step": 1000
     },
     {
+      "epoch": 4.0,
+      "eval_cer": 0.07259058417549914,
+      "eval_loss": 0.5421165227890015,
+      "eval_runtime": 253.562,
+      "eval_samples_per_second": 8.329,
+      "eval_steps_per_second": 0.521,
+      "eval_wer": 0.20198998901233062,
+      "step": 1099
     },
     {
       "epoch": 5.0,
+      "eval_cer": 0.07377820601877787,
+      "eval_loss": 0.5494938492774963,
+      "eval_runtime": 254.0497,
+      "eval_samples_per_second": 8.313,
       "eval_steps_per_second": 0.52,
+      "eval_wer": 0.2014406055426688,
+      "step": 1373
     },
     {
+      "epoch": 5.46,
+      "learning_rate": 2.9058394160583945e-05,
+      "loss": 0.109,
+      "step": 1500
     },
     {
+      "epoch": 6.0,
+      "eval_cer": 0.07154861406771686,
+      "eval_loss": 0.5665440559387207,
+      "eval_runtime": 253.9146,
+      "eval_samples_per_second": 8.318,
+      "eval_steps_per_second": 0.52,
+      "eval_wer": 0.1971676230008546,
+      "step": 1648
     },
     {
       "epoch": 7.0,
+      "eval_cer": 0.07226566876554552,
+      "eval_loss": 0.5868140459060669,
+      "eval_runtime": 253.2966,
+      "eval_samples_per_second": 8.338,
+      "eval_steps_per_second": 0.521,
+      "eval_wer": 0.1968624099621536,
+      "step": 1923
     },
     {
+      "epoch": 7.28,
+      "learning_rate": 2.5408759124087593e-05,
+      "loss": 0.0481,
+      "step": 2000
     },
     {
+      "epoch": 8.0,
+      "eval_cer": 0.07029376834651668,
+      "eval_loss": 0.5920885801315308,
+      "eval_runtime": 252.718,
+      "eval_samples_per_second": 8.357,
+      "eval_steps_per_second": 0.522,
+      "eval_wer": 0.19570260041508974,
+      "step": 2198
     },
     {
       "epoch": 9.0,
+      "eval_cer": 0.07013691263136666,
+      "eval_loss": 0.5932603478431702,
+      "eval_runtime": 254.5349,
+      "eval_samples_per_second": 8.297,
+      "eval_steps_per_second": 0.519,
+      "eval_wer": 0.19374923696740326,
+      "step": 2472
+    },
+    {
+      "epoch": 9.1,
+      "learning_rate": 2.1759124087591242e-05,
+      "loss": 0.022,
+      "step": 2500
     },
     {
       "epoch": 10.0,
+      "eval_cer": 0.06856835547986645,
+      "eval_loss": 0.6067739725112915,
+      "eval_runtime": 253.5231,
+      "eval_samples_per_second": 8.331,
+      "eval_steps_per_second": 0.521,
+      "eval_wer": 0.1925894274203394,
+      "step": 2747
     },
     {
+      "epoch": 10.92,
+      "learning_rate": 1.8116788321167883e-05,
+      "loss": 0.0108,
+      "step": 3000
     },
     {
       "epoch": 11.0,
+      "eval_cer": 0.06744795751450916,
+      "eval_loss": 0.6042998433113098,
+      "eval_runtime": 253.2695,
+      "eval_samples_per_second": 8.339,
+      "eval_steps_per_second": 0.521,
+      "eval_wer": 0.1902087657184715,
+      "step": 3022
     },
     {
       "epoch": 12.0,
+      "eval_cer": 0.06674210679633406,
+      "eval_loss": 0.6130247116088867,
+      "eval_runtime": 253.5585,
+      "eval_samples_per_second": 8.329,
+      "eval_steps_per_second": 0.521,
+      "eval_wer": 0.18856061530948603,
+      "step": 3297
     },
     {
+      "epoch": 12.74,
+      "learning_rate": 1.4467153284671533e-05,
+      "loss": 0.0052,
+      "step": 3500
     },
     {
       "epoch": 13.0,
+      "eval_cer": 0.0659802361798911,
+      "eval_loss": 0.6161753535270691,
+      "eval_runtime": 254.095,
+      "eval_samples_per_second": 8.312,
+      "eval_steps_per_second": 0.519,
+      "eval_wer": 0.1861799536076181,
+      "step": 3571
     },
     {
       "epoch": 14.0,
+      "eval_cer": 0.06466937056042306,
+      "eval_loss": 0.6252880692481995,
+      "eval_runtime": 254.0952,
+      "eval_samples_per_second": 8.312,
       "eval_steps_per_second": 0.519,
+      "eval_wer": 0.18471493102185324,
+      "step": 3846
     },
     {
+      "epoch": 14.56,
+      "learning_rate": 1.0817518248175182e-05,
+      "loss": 0.0028,
+      "step": 4000
     },
     {
       "epoch": 15.0,
+      "eval_cer": 0.06428843525220158,
+      "eval_loss": 0.6240524649620056,
+      "eval_runtime": 253.6298,
+      "eval_samples_per_second": 8.327,
+      "eval_steps_per_second": 0.52,
+      "eval_wer": 0.18270052496642655,
+      "step": 4121
     },
     {
       "epoch": 16.0,
+      "eval_cer": 0.06460214668250162,
+      "eval_loss": 0.6327393054962158,
+      "eval_runtime": 254.0581,
+      "eval_samples_per_second": 8.313,
+      "eval_steps_per_second": 0.52,
+      "eval_wer": 0.18428763276767182,
+      "step": 4396
     },
     {
+      "epoch": 16.38,
+      "learning_rate": 7.167883211678832e-06,
+      "loss": 0.0016,
+      "step": 4500
     },
     {
       "epoch": 17.0,
+      "eval_cer": 0.0632464651444193,
+      "eval_loss": 0.6320570707321167,
+      "eval_runtime": 253.728,
+      "eval_samples_per_second": 8.324,
+      "eval_steps_per_second": 0.52,
+      "eval_wer": 0.18190697106580392,
+      "step": 4670
     },
     {
       "epoch": 18.0,
+      "eval_cer": 0.06377305218813722,
+      "eval_loss": 0.6347479224205017,
+      "eval_runtime": 254.3801,
+      "eval_samples_per_second": 8.303,
       "eval_steps_per_second": 0.519,
+      "eval_wer": 0.18239531192772554,
+      "step": 4945
     },
     {
+      "epoch": 18.2,
+      "learning_rate": 3.5182481751824822e-06,
+      "loss": 0.0011,
+      "step": 5000
     },
     {
       "epoch": 19.0,
+      "eval_cer": 0.06367221637125507,
+      "eval_loss": 0.6383982300758362,
+      "eval_runtime": 254.2837,
+      "eval_samples_per_second": 8.306,
+      "eval_steps_per_second": 0.519,
+      "eval_wer": 0.1815407154193627,
+      "step": 5220
     },
     {
+      "epoch": 19.95,
+      "eval_cer": 0.06354897259506577,
+      "eval_loss": 0.6386234164237976,
+      "eval_runtime": 253.9317,
+      "eval_samples_per_second": 8.317,
+      "eval_steps_per_second": 0.52,
+      "eval_wer": 0.18233426931998534,
+      "step": 5480
     }
   ],
+  "max_steps": 5480,
   "num_train_epochs": 20,
+  "total_flos": 9.42327114459343e+20,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5513f54b8d1b67c7452bf5a8f8adafd915636f563d2664c498504a5cb217be7
 size 4027

 version https://git-lfs.github.com/spec/v1
+oid sha256:71d19633df0be7b388fccb41f0bcfa3f9e1a5625377ced62c9270cfe649830c4
 size 4027