Upload 10 files

Browse files

Files changed (8) hide show

config.json +1 -1
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +252 -3
training_args.bin +1 -1

config.json CHANGED Viewed

@@ -43,7 +43,7 @@
   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
-  "torch_dtype": "float16",
   "transformers_version": "4.37.0.dev0",
   "use_cache": true,
   "use_weighted_layer_sum": false,

   "num_mel_bins": 128,
   "pad_token_id": 50256,
   "scale_embedding": false,
+  "torch_dtype": "float32",
   "transformers_version": "4.37.0.dev0",
   "use_cache": true,
   "use_weighted_layer_sum": false,

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f878789c48bcae8bdb738a21db184b61ea25d207190b7a28b1886fd661820964
 size 4993448880

 version https://git-lfs.github.com/spec/v1
+oid sha256:fedb9cc896a6388bb4f5cddb373b7392782ec965512769af969c60e1af1a4e14
 size 4993448880

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cebf488a1c5179e1630e18b09c98e0fc49f633401cd2860996acc46e8ce31123
 size 1180663192

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c6b0edf383dba5a20a86c58366da587af2b11f57f3238809e22174428275ba2
 size 1180663192

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b881cb7e883293384811c41e69a3af5ab73194ee3fd9c7fc959db40efbb8dce
 size 12333660476

 version https://git-lfs.github.com/spec/v1
+oid sha256:80e4f108eb5557c44d32434b4917e37c96c5a7f16fb94640266fc8260e5fd15e
 size 12333660476

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:473904b1f2366db08d341e1d5587ca85e45deb227516e6d83bdef880288fcb69
-size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:49966cb04e594c410fd0e18084a8363564e6ac46de2a7e2d0b5f4cc3add8b713
+size 14308

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a7fed81325cf3d8746c8c8e29722d1ee71a0fee7a7fbd34629d55e97abe774b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:063989716508e91f1978729efb82b7e19b19c1473686b3b12f8b0931dcd025b2
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7741935483870968,
   "eval_steps": 1000,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -754,6 +754,255 @@
       "eval_steps_per_second": 0.006,
       "eval_wer": 0.09970911441499677,
       "step": 3000
     }
   ],
   "logging_steps": 25,
@@ -761,7 +1010,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
-  "total_flos": 8.153995935744e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.032258064516129,
   "eval_steps": 1000,
+  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 0.006,
       "eval_wer": 0.09970911441499677,
       "step": 3000
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 6.59e-07,
+      "loss": 0.1334,
+      "step": 3025
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.506666666666666e-07,
+      "loss": 0.1584,
+      "step": 3050
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 6.423333333333333e-07,
+      "loss": 0.1331,
+      "step": 3075
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 6.346666666666666e-07,
+      "loss": 0.1226,
+      "step": 3100
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 6.263333333333332e-07,
+      "loss": 0.135,
+      "step": 3125
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 6.18e-07,
+      "loss": 0.1538,
+      "step": 3150
+    },
+    {
+      "epoch": 0.82,
+      "learning_rate": 6.096666666666667e-07,
+      "loss": 0.1405,
+      "step": 3175
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 6.013333333333334e-07,
+      "loss": 0.1534,
+      "step": 3200
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 5.93e-07,
+      "loss": 0.1628,
+      "step": 3225
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 5.846666666666667e-07,
+      "loss": 0.2002,
+      "step": 3250
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5.763333333333333e-07,
+      "loss": 0.1155,
+      "step": 3275
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 5.679999999999999e-07,
+      "loss": 0.179,
+      "step": 3300
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 5.596666666666666e-07,
+      "loss": 0.1471,
+      "step": 3325
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 5.513333333333333e-07,
+      "loss": 0.1386,
+      "step": 3350
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 5.43e-07,
+      "loss": 0.1185,
+      "step": 3375
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.346666666666666e-07,
+      "loss": 0.1418,
+      "step": 3400
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 5.263333333333333e-07,
+      "loss": 0.1015,
+      "step": 3425
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 5.18e-07,
+      "loss": 0.1525,
+      "step": 3450
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.096666666666667e-07,
+      "loss": 0.1212,
+      "step": 3475
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 5.013333333333333e-07,
+      "loss": 0.1623,
+      "step": 3500
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 4.93e-07,
+      "loss": 0.1178,
+      "step": 3525
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.846666666666667e-07,
+      "loss": 0.1618,
+      "step": 3550
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 4.763333333333333e-07,
+      "loss": 0.1187,
+      "step": 3575
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 4.68e-07,
+      "loss": 0.1382,
+      "step": 3600
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.5966666666666667e-07,
+      "loss": 0.1211,
+      "step": 3625
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 4.5133333333333327e-07,
+      "loss": 0.1582,
+      "step": 3650
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.43e-07,
+      "loss": 0.1201,
+      "step": 3675
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 4.3466666666666664e-07,
+      "loss": 0.1571,
+      "step": 3700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 4.263333333333333e-07,
+      "loss": 0.1247,
+      "step": 3725
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.1799999999999996e-07,
+      "loss": 0.1648,
+      "step": 3750
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 4.0966666666666667e-07,
+      "loss": 0.1313,
+      "step": 3775
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 4.0133333333333333e-07,
+      "loss": 0.1528,
+      "step": 3800
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.93e-07,
+      "loss": 0.1252,
+      "step": 3825
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.8466666666666664e-07,
+      "loss": 0.1674,
+      "step": 3850
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3.7633333333333335e-07,
+      "loss": 0.1192,
+      "step": 3875
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.6799999999999996e-07,
+      "loss": 0.1054,
+      "step": 3900
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.5966666666666667e-07,
+      "loss": 0.1353,
+      "step": 3925
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3.5133333333333333e-07,
+      "loss": 0.1004,
+      "step": 3950
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.43e-07,
+      "loss": 0.1382,
+      "step": 3975
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.3466666666666665e-07,
+      "loss": 0.0821,
+      "step": 4000
+    },
+    {
+      "epoch": 1.03,
+      "eval_loss": 0.13208560645580292,
+      "eval_runtime": 194476.4747,
+      "eval_samples_per_second": 0.048,
+      "eval_steps_per_second": 0.006,
+      "eval_wer": 1.000743374272786,
+      "step": 4000
     }
   ],
   "logging_steps": 25,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 2,
   "save_steps": 1000,
+  "total_flos": 1.0871315081330688e+20,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7333482a7c3f07f0c77f8cb008cb1f8732d2c0821c26cc6972eb4ef6e08368a7
 size 4856

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f665d772c299f2cf7e58571e6ed463fc30fe6fa27220a8ca365ab05354ee77f
 size 4856