Upload folder using huggingface_hub

Browse files

Files changed (8) hide show

.ipynb_checkpoints/config-checkpoint.json +61 -0
.ipynb_checkpoints/generation_config-checkpoint.json +15 -0
model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +83 -257
training_args.bin +2 -2

.ipynb_checkpoints/config-checkpoint.json ADDED Viewed

	@@ -0,0 +1,61 @@

+{
+  "_name_or_path": "Sunbird/sunbird-en-mul",
+  "activation_dropout": 0.0,
+  "activation_function": "swish",
+  "add_bias_logits": false,
+  "add_final_layer_norm": false,
+  "architectures": [
+    "MarianMTModel"
+  ],
+  "attention_dropout": 0.0,
+  "bad_words_ids": [
+    [
+      64109
+    ]
+  ],
+  "bos_token_id": 0,
+  "classif_dropout": 0.0,
+  "classifier_dropout": 0.0,
+  "d_model": 512,
+  "decoder_attention_heads": 8,
+  "decoder_ffn_dim": 2048,
+  "decoder_layerdrop": 0.0,
+  "decoder_layers": 6,
+  "decoder_start_token_id": 64109,
+  "decoder_vocab_size": 64110,
+  "dropout": 0.1,
+  "encoder_attention_heads": 8,
+  "encoder_ffn_dim": 2048,
+  "encoder_layerdrop": 0.0,
+  "encoder_layers": 6,
+  "eos_token_id": 0,
+  "extra_pos_embeddings": 64110,
+  "forced_eos_token_id": 0,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2"
+  },
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_2": 2
+  },
+  "max_length": 512,
+  "max_position_embeddings": 512,
+  "model_type": "marian",
+  "normalize_before": false,
+  "normalize_embedding": false,
+  "num_beams": 4,
+  "num_hidden_layers": 6,
+  "pad_token_id": 64109,
+  "scale_embedding": true,
+  "share_encoder_decoder_embeddings": true,
+  "static_position_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.42.3",
+  "use_cache": true,
+  "vocab_size": 64110
+}

.ipynb_checkpoints/generation_config-checkpoint.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bad_words_ids": [
+    [
+      64109
+    ]
+  ],
+  "bos_token_id": 0,
+  "decoder_start_token_id": 64109,
+  "eos_token_id": 0,
+  "forced_eos_token_id": 0,
+  "max_length": 512,
+  "num_beams": 4,
+  "pad_token_id": 64109,
+  "transformers_version": "4.42.3"
+}

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f3b76e2fd91bb500b4ba2e119c0e247aa20878b3958b52e4005795911e4472f
 size 308136760

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a671b44e845c38b4c922359787150f67fe827da60cb8013c57f1e95b8979bda
 size 308136760

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53b1fad9f6859580f2b1286fc9e5ab4e9b98448e13e353a481fe5d16750ec81e
 size 615914106

 version https://git-lfs.github.com/spec/v1
+oid sha256:314c29c585a428a949c96d0ad30940975e42977868f743cb743eca8a7ef11d5e
 size 615914106

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:978de5ea732400c1030e6151dbd2f7da1685b2766cd3dbd76ad9e6ca76c73905
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:944e670087748feb93d27d6f02cd19e3a0d45a2067db8c91e6ba9d7d1d9530ee
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:addf6ed2edfb91e5799707ef8ad563521651e0e38e75b9389ea7f0c4c79ff9b3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:06585fe70176c3147fca57438a795025afd40446eb83631c3d5f29dcfab8b5fd
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,292 +1,118 @@
 {
-  "best_metric": 4.029151439666748,
-  "best_model_checkpoint": "continued-finetuned-en-to-lg/checkpoint-39",
-  "epoch": 26.0,
   "eval_steps": 50,
-  "global_step": 1027,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.9873417721518988,
-      "eval_bleu": 0.8383,
-      "eval_gen_len": 20.509,
-      "eval_loss": 4.029151439666748,
-      "eval_runtime": 478.8606,
-      "eval_samples_per_second": 25.387,
-      "eval_steps_per_second": 0.794,
-      "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_bleu": 0.8282,
-      "eval_gen_len": 20.3936,
-      "eval_loss": 4.243524074554443,
-      "eval_runtime": 474.9597,
-      "eval_samples_per_second": 25.596,
-      "eval_steps_per_second": 0.8,
-      "step": 79
     },
     {
-      "epoch": 2.9873417721518987,
-      "eval_bleu": 0.8032,
-      "eval_gen_len": 20.33,
-      "eval_loss": 4.359070301055908,
-      "eval_runtime": 475.0262,
-      "eval_samples_per_second": 25.592,
-      "eval_steps_per_second": 0.8,
-      "step": 118
     },
     {
       "epoch": 4.0,
-      "eval_bleu": 0.8038,
-      "eval_gen_len": 20.2033,
-      "eval_loss": 4.451895236968994,
-      "eval_runtime": 473.6738,
-      "eval_samples_per_second": 25.665,
-      "eval_steps_per_second": 0.802,
-      "step": 158
     },
     {
-      "epoch": 4.987341772151899,
-      "eval_bleu": 0.8017,
-      "eval_gen_len": 20.0283,
-      "eval_loss": 4.547088146209717,
-      "eval_runtime": 476.3005,
-      "eval_samples_per_second": 25.524,
-      "eval_steps_per_second": 0.798,
-      "step": 197
     },
     {
       "epoch": 6.0,
-      "eval_bleu": 0.7828,
-      "eval_gen_len": 20.1771,
-      "eval_loss": 4.555694103240967,
-      "eval_runtime": 473.4342,
-      "eval_samples_per_second": 25.678,
-      "eval_steps_per_second": 0.803,
-      "step": 237
     },
     {
-      "epoch": 6.987341772151899,
-      "eval_bleu": 0.771,
-      "eval_gen_len": 20.3172,
-      "eval_loss": 4.672959327697754,
-      "eval_runtime": 476.2521,
-      "eval_samples_per_second": 25.526,
-      "eval_steps_per_second": 0.798,
-      "step": 276
     },
     {
       "epoch": 8.0,
-      "eval_bleu": 0.7971,
-      "eval_gen_len": 20.2095,
-      "eval_loss": 4.719875812530518,
-      "eval_runtime": 472.5874,
-      "eval_samples_per_second": 25.724,
-      "eval_steps_per_second": 0.804,
-      "step": 316
     },
     {
-      "epoch": 8.987341772151899,
-      "eval_bleu": 0.7587,
-      "eval_gen_len": 20.4253,
-      "eval_loss": 4.758220672607422,
-      "eval_runtime": 477.573,
-      "eval_samples_per_second": 25.456,
-      "eval_steps_per_second": 0.796,
-      "step": 355
     },
     {
       "epoch": 10.0,
-      "eval_bleu": 0.7975,
-      "eval_gen_len": 20.3643,
-      "eval_loss": 4.771291255950928,
-      "eval_runtime": 477.1681,
-      "eval_samples_per_second": 25.477,
-      "eval_steps_per_second": 0.796,
-      "step": 395
-    },
-    {
-      "epoch": 10.987341772151899,
-      "eval_bleu": 0.7619,
-      "eval_gen_len": 20.4121,
-      "eval_loss": 4.748700141906738,
-      "eval_runtime": 479.5702,
-      "eval_samples_per_second": 25.35,
-      "eval_steps_per_second": 0.792,
-      "step": 434
-    },
-    {
-      "epoch": 12.0,
-      "eval_bleu": 0.7865,
-      "eval_gen_len": 20.3477,
-      "eval_loss": 4.832670211791992,
-      "eval_runtime": 473.4727,
-      "eval_samples_per_second": 25.676,
-      "eval_steps_per_second": 0.803,
-      "step": 474
-    },
-    {
-      "epoch": 12.658227848101266,
-      "grad_norm": 1.2026784420013428,
-      "learning_rate": 1.1452991452991454e-05,
-      "loss": 0.1585,
-      "step": 500
-    },
-    {
-      "epoch": 12.987341772151899,
-      "eval_bleu": 0.7909,
-      "eval_gen_len": 20.307,
-      "eval_loss": 4.844118595123291,
-      "eval_runtime": 475.2982,
-      "eval_samples_per_second": 25.578,
-      "eval_steps_per_second": 0.799,
-      "step": 513
-    },
-    {
-      "epoch": 14.0,
-      "eval_bleu": 0.8004,
-      "eval_gen_len": 20.3038,
-      "eval_loss": 4.876136302947998,
-      "eval_runtime": 475.2478,
-      "eval_samples_per_second": 25.58,
-      "eval_steps_per_second": 0.8,
-      "step": 553
-    },
-    {
-      "epoch": 14.987341772151899,
-      "eval_bleu": 0.7823,
-      "eval_gen_len": 20.2747,
-      "eval_loss": 4.92393684387207,
-      "eval_runtime": 476.8033,
-      "eval_samples_per_second": 25.497,
-      "eval_steps_per_second": 0.797,
-      "step": 592
-    },
-    {
-      "epoch": 16.0,
-      "eval_bleu": 0.79,
-      "eval_gen_len": 20.226,
-      "eval_loss": 4.880424976348877,
-      "eval_runtime": 474.5946,
-      "eval_samples_per_second": 25.616,
-      "eval_steps_per_second": 0.801,
-      "step": 632
-    },
-    {
-      "epoch": 16.9873417721519,
-      "eval_bleu": 0.7821,
-      "eval_gen_len": 20.3653,
-      "eval_loss": 4.9470534324646,
-      "eval_runtime": 477.2511,
-      "eval_samples_per_second": 25.473,
-      "eval_steps_per_second": 0.796,
-      "step": 671
-    },
-    {
-      "epoch": 18.0,
-      "eval_bleu": 0.7876,
-      "eval_gen_len": 20.3285,
-      "eval_loss": 4.9639482498168945,
-      "eval_runtime": 477.3388,
-      "eval_samples_per_second": 25.468,
-      "eval_steps_per_second": 0.796,
-      "step": 711
-    },
-    {
-      "epoch": 18.9873417721519,
-      "eval_bleu": 0.7895,
-      "eval_gen_len": 20.3364,
-      "eval_loss": 4.970686912536621,
-      "eval_runtime": 476.4474,
-      "eval_samples_per_second": 25.516,
-      "eval_steps_per_second": 0.798,
-      "step": 750
-    },
-    {
-      "epoch": 20.0,
-      "eval_bleu": 0.784,
-      "eval_gen_len": 20.3641,
-      "eval_loss": 4.984948635101318,
-      "eval_runtime": 477.378,
-      "eval_samples_per_second": 25.466,
-      "eval_steps_per_second": 0.796,
-      "step": 790
-    },
-    {
-      "epoch": 20.9873417721519,
-      "eval_bleu": 0.7838,
-      "eval_gen_len": 20.3852,
-      "eval_loss": 5.011585712432861,
-      "eval_runtime": 477.6336,
-      "eval_samples_per_second": 25.453,
-      "eval_steps_per_second": 0.796,
-      "step": 829
-    },
-    {
-      "epoch": 22.0,
-      "eval_bleu": 0.7874,
-      "eval_gen_len": 20.3104,
-      "eval_loss": 5.026498794555664,
-      "eval_runtime": 477.8381,
-      "eval_samples_per_second": 25.442,
-      "eval_steps_per_second": 0.795,
-      "step": 869
-    },
-    {
-      "epoch": 22.9873417721519,
-      "eval_bleu": 0.7886,
-      "eval_gen_len": 20.3484,
-      "eval_loss": 5.026541233062744,
-      "eval_runtime": 478.7469,
-      "eval_samples_per_second": 25.393,
-      "eval_steps_per_second": 0.794,
-      "step": 908
-    },
-    {
-      "epoch": 24.0,
-      "eval_bleu": 0.7833,
-      "eval_gen_len": 20.3558,
-      "eval_loss": 5.028345584869385,
-      "eval_runtime": 476.6444,
-      "eval_samples_per_second": 25.505,
-      "eval_steps_per_second": 0.797,
-      "step": 948
-    },
-    {
-      "epoch": 24.9873417721519,
-      "eval_bleu": 0.7835,
-      "eval_gen_len": 20.313,
-      "eval_loss": 5.029706001281738,
-      "eval_runtime": 478.6376,
-      "eval_samples_per_second": 25.399,
-      "eval_steps_per_second": 0.794,
-      "step": 987
-    },
-    {
-      "epoch": 25.31645569620253,
-      "grad_norm": 0.5030060410499573,
-      "learning_rate": 2.9059829059829063e-06,
-      "loss": 0.0263,
-      "step": 1000
-    },
-    {
-      "epoch": 26.0,
-      "eval_bleu": 0.7812,
-      "eval_gen_len": 20.3503,
-      "eval_loss": 5.040848731994629,
-      "eval_runtime": 478.615,
-      "eval_samples_per_second": 25.4,
-      "eval_steps_per_second": 0.794,
-      "step": 1027
     }
   ],
   "logging_steps": 500,
-  "max_steps": 1170,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -295,12 +121,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 346447645507584.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.7421457767486572,
+  "best_model_checkpoint": "en-to-lg/checkpoint-16",
+  "epoch": 10.0,
   "eval_steps": 50,
+  "global_step": 160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 1.0,
+      "eval_bleu": 0.8596,
+      "eval_gen_len": 20.4303,
+      "eval_loss": 3.7421457767486572,
+      "eval_runtime": 486.1664,
+      "eval_samples_per_second": 25.006,
+      "eval_steps_per_second": 0.782,
+      "step": 16
     },
     {
       "epoch": 2.0,
+      "eval_bleu": 0.855,
+      "eval_gen_len": 20.5137,
+      "eval_loss": 3.800355911254883,
+      "eval_runtime": 489.6809,
+      "eval_samples_per_second": 24.826,
+      "eval_steps_per_second": 0.776,
+      "step": 32
     },
     {
+      "epoch": 3.0,
+      "eval_bleu": 0.8413,
+      "eval_gen_len": 20.4,
+      "eval_loss": 3.806553602218628,
+      "eval_runtime": 491.5388,
+      "eval_samples_per_second": 24.733,
+      "eval_steps_per_second": 0.773,
+      "step": 48
     },
     {
       "epoch": 4.0,
+      "eval_bleu": 0.8455,
+      "eval_gen_len": 20.3859,
+      "eval_loss": 3.864736557006836,
+      "eval_runtime": 490.916,
+      "eval_samples_per_second": 24.764,
+      "eval_steps_per_second": 0.774,
+      "step": 64
     },
     {
+      "epoch": 5.0,
+      "eval_bleu": 0.8527,
+      "eval_gen_len": 20.3211,
+      "eval_loss": 3.916616916656494,
+      "eval_runtime": 490.8429,
+      "eval_samples_per_second": 24.768,
+      "eval_steps_per_second": 0.774,
+      "step": 80
     },
     {
       "epoch": 6.0,
+      "eval_bleu": 0.8539,
+      "eval_gen_len": 20.3088,
+      "eval_loss": 3.9686362743377686,
+      "eval_runtime": 492.3847,
+      "eval_samples_per_second": 24.69,
+      "eval_steps_per_second": 0.772,
+      "step": 96
     },
     {
+      "epoch": 7.0,
+      "eval_bleu": 0.8492,
+      "eval_gen_len": 20.3507,
+      "eval_loss": 3.9955193996429443,
+      "eval_runtime": 494.2016,
+      "eval_samples_per_second": 24.599,
+      "eval_steps_per_second": 0.769,
+      "step": 112
     },
     {
       "epoch": 8.0,
+      "eval_bleu": 0.8387,
+      "eval_gen_len": 20.3404,
+      "eval_loss": 4.008735179901123,
+      "eval_runtime": 491.9673,
+      "eval_samples_per_second": 24.711,
+      "eval_steps_per_second": 0.772,
+      "step": 128
     },
     {
+      "epoch": 9.0,
+      "eval_bleu": 0.8345,
+      "eval_gen_len": 20.3244,
+      "eval_loss": 4.021594047546387,
+      "eval_runtime": 491.5119,
+      "eval_samples_per_second": 24.734,
+      "eval_steps_per_second": 0.773,
+      "step": 144
     },
     {
       "epoch": 10.0,
+      "eval_bleu": 0.8431,
+      "eval_gen_len": 20.3462,
+      "eval_loss": 4.02959680557251,
+      "eval_runtime": 491.997,
+      "eval_samples_per_second": 24.71,
+      "eval_steps_per_second": 0.772,
+      "step": 160
     }
   ],
   "logging_steps": 500,
+  "max_steps": 160,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
   "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 53351789101056.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:308614a7c1143402fb2b7f47f4e5b67e0ad8de478d93377850387da73b823bf1
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd9395e59bed2f6384e0c693e2944381623a36a75b946cce5bfdab8eebcecec7
+size 5240