Training in progress, step 43000, checkpoint

Browse files

Files changed (11) hide show

checkpoint-43000/config.json +35 -0
checkpoint-43000/generation_config.json +9 -0
checkpoint-43000/optimizer.pt +3 -0
checkpoint-43000/pytorch_model.bin +3 -0
checkpoint-43000/rng_state.pth +3 -0
checkpoint-43000/scheduler.pt +3 -0
checkpoint-43000/sentencepiece.bpe.model +3 -0
checkpoint-43000/special_tokens_map.json +220 -0
checkpoint-43000/tokenizer_config.json +25 -0
checkpoint-43000/trainer_state.json +1223 -0
checkpoint-43000/training_args.bin +3 -0

checkpoint-43000/config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "_name_or_path": "facebook/nllb-200-distilled-600M",
+  "activation_dropout": 0.0,
+  "activation_function": "relu",
+  "architectures": [
+    "M2M100ForConditionalGeneration"
+  ],
+  "attention_dropout": 0.1,
+  "bos_token_id": 0,
+  "d_model": 1024,
+  "decoder_attention_heads": 16,
+  "decoder_ffn_dim": 4096,
+  "decoder_layerdrop": 0,
+  "decoder_layers": 12,
+  "decoder_start_token_id": 2,
+  "dropout": 0.1,
+  "encoder_attention_heads": 16,
+  "encoder_ffn_dim": 4096,
+  "encoder_layerdrop": 0,
+  "encoder_layers": 12,
+  "eos_token_id": 2,
+  "init_std": 0.02,
+  "is_encoder_decoder": true,
+  "max_length": 200,
+  "max_position_embeddings": 1024,
+  "model_type": "m2m_100",
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "scale_embedding": true,
+  "tokenizer_class": "NllbTokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.33.0",
+  "use_cache": true,
+  "vocab_size": 256205
+}

checkpoint-43000/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 0,
+  "decoder_start_token_id": 2,
+  "eos_token_id": 2,
+  "max_length": 200,
+  "pad_token_id": 1,
+  "transformers_version": "4.33.0"
+}

checkpoint-43000/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:342ed0bd7e308243da59990c017edc55f06c80a2cff01868968185690ebc5d15
+size 5125261

checkpoint-43000/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9b998ff0d5362d07a638bb3521e464078f8c5832e7aa37d6e9decd1ad518447
+size 2460465086

checkpoint-43000/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4791b6a893c3b63cd79d3fdc7da1cc73bbc121822356606b6a564a4db3adaede
+size 14244

checkpoint-43000/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9aaec8277ef0c45abb8e29aea7d8e96fa9daac7cdcf9d99e83b773a7defd000
+size 1064

checkpoint-43000/sentencepiece.bpe.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14bb8dfb35c0ffdea7bc01e56cea38b9e3d5efcdcb9c251d6b40538e1aab555a
+size 4852054

checkpoint-43000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,220 @@

+{
+  "additional_special_tokens": [
+    "ace_Arab",
+    "ace_Latn",
+    "acm_Arab",
+    "acq_Arab",
+    "aeb_Arab",
+    "afr_Latn",
+    "ajp_Arab",
+    "aka_Latn",
+    "amh_Ethi",
+    "apc_Arab",
+    "arb_Arab",
+    "ars_Arab",
+    "ary_Arab",
+    "arz_Arab",
+    "asm_Beng",
+    "ast_Latn",
+    "awa_Deva",
+    "ayr_Latn",
+    "azb_Arab",
+    "azj_Latn",
+    "bak_Cyrl",
+    "bam_Latn",
+    "ban_Latn",
+    "bel_Cyrl",
+    "bem_Latn",
+    "ben_Beng",
+    "bho_Deva",
+    "bjn_Arab",
+    "bjn_Latn",
+    "bod_Tibt",
+    "bos_Latn",
+    "bug_Latn",
+    "bul_Cyrl",
+    "cat_Latn",
+    "ceb_Latn",
+    "ces_Latn",
+    "cjk_Latn",
+    "ckb_Arab",
+    "crh_Latn",
+    "cym_Latn",
+    "dan_Latn",
+    "deu_Latn",
+    "dik_Latn",
+    "dyu_Latn",
+    "dzo_Tibt",
+    "ell_Grek",
+    "eng_Latn",
+    "epo_Latn",
+    "est_Latn",
+    "eus_Latn",
+    "ewe_Latn",
+    "fao_Latn",
+    "pes_Arab",
+    "fij_Latn",
+    "fin_Latn",
+    "fon_Latn",
+    "fra_Latn",
+    "fur_Latn",
+    "fuv_Latn",
+    "gla_Latn",
+    "gle_Latn",
+    "glg_Latn",
+    "grn_Latn",
+    "guj_Gujr",
+    "hat_Latn",
+    "hau_Latn",
+    "heb_Hebr",
+    "hin_Deva",
+    "hne_Deva",
+    "hrv_Latn",
+    "hun_Latn",
+    "hye_Armn",
+    "ibo_Latn",
+    "ilo_Latn",
+    "ind_Latn",
+    "isl_Latn",
+    "ita_Latn",
+    "jav_Latn",
+    "jpn_Jpan",
+    "kab_Latn",
+    "kac_Latn",
+    "kam_Latn",
+    "kan_Knda",
+    "kas_Arab",
+    "kas_Deva",
+    "kat_Geor",
+    "knc_Arab",
+    "knc_Latn",
+    "kaz_Cyrl",
+    "kbp_Latn",
+    "kea_Latn",
+    "khm_Khmr",
+    "kik_Latn",
+    "kin_Latn",
+    "kir_Cyrl",
+    "kmb_Latn",
+    "kon_Latn",
+    "kor_Hang",
+    "kmr_Latn",
+    "lao_Laoo",
+    "lvs_Latn",
+    "lij_Latn",
+    "lim_Latn",
+    "lin_Latn",
+    "lit_Latn",
+    "lmo_Latn",
+    "ltg_Latn",
+    "ltz_Latn",
+    "lua_Latn",
+    "lug_Latn",
+    "luo_Latn",
+    "lus_Latn",
+    "mag_Deva",
+    "mai_Deva",
+    "mal_Mlym",
+    "mar_Deva",
+    "min_Latn",
+    "mkd_Cyrl",
+    "plt_Latn",
+    "mlt_Latn",
+    "mni_Beng",
+    "khk_Cyrl",
+    "mos_Latn",
+    "mri_Latn",
+    "zsm_Latn",
+    "mya_Mymr",
+    "nld_Latn",
+    "nno_Latn",
+    "nob_Latn",
+    "npi_Deva",
+    "nso_Latn",
+    "nus_Latn",
+    "nya_Latn",
+    "oci_Latn",
+    "gaz_Latn",
+    "ory_Orya",
+    "pag_Latn",
+    "pan_Guru",
+    "pap_Latn",
+    "pol_Latn",
+    "por_Latn",
+    "prs_Arab",
+    "pbt_Arab",
+    "quy_Latn",
+    "ron_Latn",
+    "run_Latn",
+    "rus_Cyrl",
+    "sag_Latn",
+    "san_Deva",
+    "sat_Beng",
+    "scn_Latn",
+    "shn_Mymr",
+    "sin_Sinh",
+    "slk_Latn",
+    "slv_Latn",
+    "smo_Latn",
+    "sna_Latn",
+    "snd_Arab",
+    "som_Latn",
+    "sot_Latn",
+    "spa_Latn",
+    "als_Latn",
+    "srd_Latn",
+    "srp_Cyrl",
+    "ssw_Latn",
+    "sun_Latn",
+    "swe_Latn",
+    "swh_Latn",
+    "szl_Latn",
+    "tam_Taml",
+    "tat_Cyrl",
+    "tel_Telu",
+    "tgk_Cyrl",
+    "tgl_Latn",
+    "tha_Thai",
+    "tir_Ethi",
+    "taq_Latn",
+    "taq_Tfng",
+    "tpi_Latn",
+    "tsn_Latn",
+    "tso_Latn",
+    "tuk_Latn",
+    "tum_Latn",
+    "tur_Latn",
+    "twi_Latn",
+    "tzm_Tfng",
+    "uig_Arab",
+    "ukr_Cyrl",
+    "umb_Latn",
+    "urd_Arab",
+    "uzn_Latn",
+    "vec_Latn",
+    "vie_Latn",
+    "war_Latn",
+    "wol_Latn",
+    "xho_Latn",
+    "ydd_Hebr",
+    "yor_Latn",
+    "yue_Hant",
+    "zho_Hans",
+    "zho_Hant",
+    "zul_Latn",
+    "ain_Jpan"
+  ],
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "unk_token": "<unk>"
+}

checkpoint-43000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "additional_special_tokens": null,
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "legacy_behaviour": false,
+  "mask_token": {
+    "__type": "AddedToken",
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 1024,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "sp_model_kwargs": {},
+  "src_lang": null,
+  "tgt_lang": null,
+  "tokenizer_class": "NllbTokenizer",
+  "tokenizer_file": null,
+  "unk_token": "<unk>"
+}

checkpoint-43000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1223 @@

+{
+  "best_metric": 1.3390538692474365,
+  "best_model_checkpoint": "smilemikan/nllb-finetuned-jpn-to-ain-2/checkpoint-43000",
+  "epoch": 9.473452302269223,
+  "eval_steps": 500,
+  "global_step": 43000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.9833333333333335e-05,
+      "loss": 4.6196,
+      "step": 500
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 3.7452237606048584,
+      "eval_runtime": 43.586,
+      "eval_samples_per_second": 208.278,
+      "eval_steps_per_second": 13.032,
+      "step": 500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 1.9666666666666666e-05,
+      "loss": 3.5915,
+      "step": 1000
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 3.2064383029937744,
+      "eval_runtime": 43.0726,
+      "eval_samples_per_second": 210.76,
+      "eval_steps_per_second": 13.187,
+      "step": 1000
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.95e-05,
+      "loss": 3.1484,
+      "step": 1500
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 2.8919074535369873,
+      "eval_runtime": 42.8255,
+      "eval_samples_per_second": 211.977,
+      "eval_steps_per_second": 13.263,
+      "step": 1500
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 1.9333333333333333e-05,
+      "loss": 2.902,
+      "step": 2000
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 2.679006338119507,
+      "eval_runtime": 43.6162,
+      "eval_samples_per_second": 208.134,
+      "eval_steps_per_second": 13.023,
+      "step": 2000
+    },
+    {
+      "epoch": 0.55,
+      "learning_rate": 1.916666666666667e-05,
+      "loss": 2.7296,
+      "step": 2500
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 2.5206823348999023,
+      "eval_runtime": 42.8291,
+      "eval_samples_per_second": 211.959,
+      "eval_steps_per_second": 13.262,
+      "step": 2500
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 1.9000333333333335e-05,
+      "loss": 2.6105,
+      "step": 3000
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 2.394014835357666,
+      "eval_runtime": 42.8022,
+      "eval_samples_per_second": 212.092,
+      "eval_steps_per_second": 13.27,
+      "step": 3000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.883366666666667e-05,
+      "loss": 2.5068,
+      "step": 3500
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 2.30385422706604,
+      "eval_runtime": 44.6981,
+      "eval_samples_per_second": 203.096,
+      "eval_steps_per_second": 12.707,
+      "step": 3500
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 1.8667000000000003e-05,
+      "loss": 2.3848,
+      "step": 4000
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 2.2251899242401123,
+      "eval_runtime": 42.8042,
+      "eval_samples_per_second": 212.082,
+      "eval_steps_per_second": 13.27,
+      "step": 4000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 1.8500333333333337e-05,
+      "loss": 2.3391,
+      "step": 4500
+    },
+    {
+      "epoch": 0.99,
+      "eval_loss": 2.148716449737549,
+      "eval_runtime": 43.0552,
+      "eval_samples_per_second": 210.845,
+      "eval_steps_per_second": 13.192,
+      "step": 4500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.8334e-05,
+      "loss": 2.1994,
+      "step": 5000
+    },
+    {
+      "epoch": 1.1,
+      "eval_loss": 2.091869354248047,
+      "eval_runtime": 43.5857,
+      "eval_samples_per_second": 208.279,
+      "eval_steps_per_second": 13.032,
+      "step": 5000
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 1.8167333333333335e-05,
+      "loss": 2.1446,
+      "step": 5500
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 2.0449471473693848,
+      "eval_runtime": 43.2545,
+      "eval_samples_per_second": 209.874,
+      "eval_steps_per_second": 13.132,
+      "step": 5500
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.800066666666667e-05,
+      "loss": 2.1012,
+      "step": 6000
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 2.0015575885772705,
+      "eval_runtime": 43.2116,
+      "eval_samples_per_second": 210.083,
+      "eval_steps_per_second": 13.145,
+      "step": 6000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.7834000000000002e-05,
+      "loss": 2.0542,
+      "step": 6500
+    },
+    {
+      "epoch": 1.43,
+      "eval_loss": 1.951575517654419,
+      "eval_runtime": 43.3919,
+      "eval_samples_per_second": 209.209,
+      "eval_steps_per_second": 13.09,
+      "step": 6500
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 1.7667333333333333e-05,
+      "loss": 2.0216,
+      "step": 7000
+    },
+    {
+      "epoch": 1.54,
+      "eval_loss": 1.9161829948425293,
+      "eval_runtime": 43.6948,
+      "eval_samples_per_second": 207.759,
+      "eval_steps_per_second": 12.999,
+      "step": 7000
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 1.7500666666666667e-05,
+      "loss": 1.9926,
+      "step": 7500
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 1.8790709972381592,
+      "eval_runtime": 44.1328,
+      "eval_samples_per_second": 205.698,
+      "eval_steps_per_second": 12.87,
+      "step": 7500
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 1.7334e-05,
+      "loss": 1.9278,
+      "step": 8000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 1.845486044883728,
+      "eval_runtime": 44.2649,
+      "eval_samples_per_second": 205.084,
+      "eval_steps_per_second": 12.832,
+      "step": 8000
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.7167333333333334e-05,
+      "loss": 1.9305,
+      "step": 8500
+    },
+    {
+      "epoch": 1.87,
+      "eval_loss": 1.8124595880508423,
+      "eval_runtime": 43.561,
+      "eval_samples_per_second": 208.398,
+      "eval_steps_per_second": 13.039,
+      "step": 8500
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 1.7000666666666668e-05,
+      "loss": 1.905,
+      "step": 9000
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 1.7888203859329224,
+      "eval_runtime": 43.4924,
+      "eval_samples_per_second": 208.726,
+      "eval_steps_per_second": 13.06,
+      "step": 9000
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.6834666666666667e-05,
+      "loss": 1.828,
+      "step": 9500
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 1.7763384580612183,
+      "eval_runtime": 43.5326,
+      "eval_samples_per_second": 208.534,
+      "eval_steps_per_second": 13.048,
+      "step": 9500
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.6668e-05,
+      "loss": 1.808,
+      "step": 10000
+    },
+    {
+      "epoch": 2.2,
+      "eval_loss": 1.7431403398513794,
+      "eval_runtime": 43.6327,
+      "eval_samples_per_second": 208.055,
+      "eval_steps_per_second": 13.018,
+      "step": 10000
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.6501333333333334e-05,
+      "loss": 1.7434,
+      "step": 10500
+    },
+    {
+      "epoch": 2.31,
+      "eval_loss": 1.7204526662826538,
+      "eval_runtime": 44.0612,
+      "eval_samples_per_second": 206.032,
+      "eval_steps_per_second": 12.891,
+      "step": 10500
+    },
+    {
+      "epoch": 2.42,
+      "learning_rate": 1.6334666666666668e-05,
+      "loss": 1.7527,
+      "step": 11000
+    },
+    {
+      "epoch": 2.42,
+      "eval_loss": 1.7068791389465332,
+      "eval_runtime": 43.4892,
+      "eval_samples_per_second": 208.741,
+      "eval_steps_per_second": 13.061,
+      "step": 11000
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 1.6168333333333336e-05,
+      "loss": 1.6977,
+      "step": 11500
+    },
+    {
+      "epoch": 2.53,
+      "eval_loss": 1.6881217956542969,
+      "eval_runtime": 43.1769,
+      "eval_samples_per_second": 210.252,
+      "eval_steps_per_second": 13.155,
+      "step": 11500
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 1.600166666666667e-05,
+      "loss": 1.6854,
+      "step": 12000
+    },
+    {
+      "epoch": 2.64,
+      "eval_loss": 1.6784749031066895,
+      "eval_runtime": 42.7581,
+      "eval_samples_per_second": 212.311,
+      "eval_steps_per_second": 13.284,
+      "step": 12000
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 1.5835e-05,
+      "loss": 1.6603,
+      "step": 12500
+    },
+    {
+      "epoch": 2.75,
+      "eval_loss": 1.6570212841033936,
+      "eval_runtime": 42.6669,
+      "eval_samples_per_second": 212.765,
+      "eval_steps_per_second": 13.312,
+      "step": 12500
+    },
+    {
+      "epoch": 2.86,
+      "learning_rate": 1.5668333333333334e-05,
+      "loss": 1.6725,
+      "step": 13000
+    },
+    {
+      "epoch": 2.86,
+      "eval_loss": 1.6376469135284424,
+      "eval_runtime": 43.1686,
+      "eval_samples_per_second": 210.292,
+      "eval_steps_per_second": 13.158,
+      "step": 13000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 1.5501666666666668e-05,
+      "loss": 1.6384,
+      "step": 13500
+    },
+    {
+      "epoch": 2.97,
+      "eval_loss": 1.6240772008895874,
+      "eval_runtime": 43.2327,
+      "eval_samples_per_second": 209.98,
+      "eval_steps_per_second": 13.138,
+      "step": 13500
+    },
+    {
+      "epoch": 3.08,
+      "learning_rate": 1.5335e-05,
+      "loss": 1.5917,
+      "step": 14000
+    },
+    {
+      "epoch": 3.08,
+      "eval_loss": 1.6128900051116943,
+      "eval_runtime": 42.9712,
+      "eval_samples_per_second": 211.258,
+      "eval_steps_per_second": 13.218,
+      "step": 14000
+    },
+    {
+      "epoch": 3.19,
+      "learning_rate": 1.5168333333333334e-05,
+      "loss": 1.591,
+      "step": 14500
+    },
+    {
+      "epoch": 3.19,
+      "eval_loss": 1.6054280996322632,
+      "eval_runtime": 43.0919,
+      "eval_samples_per_second": 210.666,
+      "eval_steps_per_second": 13.181,
+      "step": 14500
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 1.5001666666666667e-05,
+      "loss": 1.5936,
+      "step": 15000
+    },
+    {
+      "epoch": 3.3,
+      "eval_loss": 1.5842323303222656,
+      "eval_runtime": 43.5874,
+      "eval_samples_per_second": 208.271,
+      "eval_steps_per_second": 13.031,
+      "step": 15000
+    },
+    {
+      "epoch": 3.41,
+      "learning_rate": 1.4835000000000001e-05,
+      "loss": 1.6031,
+      "step": 15500
+    },
+    {
+      "epoch": 3.41,
+      "eval_loss": 1.5732085704803467,
+      "eval_runtime": 42.6594,
+      "eval_samples_per_second": 212.802,
+      "eval_steps_per_second": 13.315,
+      "step": 15500
+    },
+    {
+      "epoch": 3.53,
+      "learning_rate": 1.4668666666666669e-05,
+      "loss": 1.554,
+      "step": 16000
+    },
+    {
+      "epoch": 3.53,
+      "eval_loss": 1.5651994943618774,
+      "eval_runtime": 42.8927,
+      "eval_samples_per_second": 211.645,
+      "eval_steps_per_second": 13.242,
+      "step": 16000
+    },
+    {
+      "epoch": 3.64,
+      "learning_rate": 1.4502000000000001e-05,
+      "loss": 1.5284,
+      "step": 16500
+    },
+    {
+      "epoch": 3.64,
+      "eval_loss": 1.5577419996261597,
+      "eval_runtime": 43.6635,
+      "eval_samples_per_second": 207.908,
+      "eval_steps_per_second": 13.009,
+      "step": 16500
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 1.4335666666666667e-05,
+      "loss": 1.5219,
+      "step": 17000
+    },
+    {
+      "epoch": 3.75,
+      "eval_loss": 1.544019103050232,
+      "eval_runtime": 43.4005,
+      "eval_samples_per_second": 209.168,
+      "eval_steps_per_second": 13.087,
+      "step": 17000
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 1.4169000000000001e-05,
+      "loss": 1.5173,
+      "step": 17500
+    },
+    {
+      "epoch": 3.86,
+      "eval_loss": 1.5335613489151,
+      "eval_runtime": 43.512,
+      "eval_samples_per_second": 208.632,
+      "eval_steps_per_second": 13.054,
+      "step": 17500
+    },
+    {
+      "epoch": 3.97,
+      "learning_rate": 1.4002333333333335e-05,
+      "loss": 1.4781,
+      "step": 18000
+    },
+    {
+      "epoch": 3.97,
+      "eval_loss": 1.5262504816055298,
+      "eval_runtime": 43.3365,
+      "eval_samples_per_second": 209.477,
+      "eval_steps_per_second": 13.107,
+      "step": 18000
+    },
+    {
+      "epoch": 4.08,
+      "learning_rate": 1.3835666666666667e-05,
+      "loss": 1.4771,
+      "step": 18500
+    },
+    {
+      "epoch": 4.08,
+      "eval_loss": 1.519882082939148,
+      "eval_runtime": 43.8272,
+      "eval_samples_per_second": 207.132,
+      "eval_steps_per_second": 12.96,
+      "step": 18500
+    },
+    {
+      "epoch": 4.19,
+      "learning_rate": 1.3669e-05,
+      "loss": 1.4613,
+      "step": 19000
+    },
+    {
+      "epoch": 4.19,
+      "eval_loss": 1.5142260789871216,
+      "eval_runtime": 43.3978,
+      "eval_samples_per_second": 209.181,
+      "eval_steps_per_second": 13.088,
+      "step": 19000
+    },
+    {
+      "epoch": 4.3,
+      "learning_rate": 1.3502333333333335e-05,
+      "loss": 1.452,
+      "step": 19500
+    },
+    {
+      "epoch": 4.3,
+      "eval_loss": 1.503504753112793,
+      "eval_runtime": 43.2384,
+      "eval_samples_per_second": 209.952,
+      "eval_steps_per_second": 13.136,
+      "step": 19500
+    },
+    {
+      "epoch": 4.41,
+      "learning_rate": 1.3335666666666667e-05,
+      "loss": 1.4563,
+      "step": 20000
+    },
+    {
+      "epoch": 4.41,
+      "eval_loss": 1.495379090309143,
+      "eval_runtime": 43.6248,
+      "eval_samples_per_second": 208.093,
+      "eval_steps_per_second": 13.02,
+      "step": 20000
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 1.3169e-05,
+      "loss": 1.46,
+      "step": 20500
+    },
+    {
+      "epoch": 4.52,
+      "eval_loss": 1.4834085702896118,
+      "eval_runtime": 43.9437,
+      "eval_samples_per_second": 206.583,
+      "eval_steps_per_second": 12.926,
+      "step": 20500
+    },
+    {
+      "epoch": 4.63,
+      "learning_rate": 1.3002333333333334e-05,
+      "loss": 1.4284,
+      "step": 21000
+    },
+    {
+      "epoch": 4.63,
+      "eval_loss": 1.4811300039291382,
+      "eval_runtime": 43.2207,
+      "eval_samples_per_second": 210.038,
+      "eval_steps_per_second": 13.142,
+      "step": 21000
+    },
+    {
+      "epoch": 4.74,
+      "learning_rate": 1.2836000000000002e-05,
+      "loss": 1.4527,
+      "step": 21500
+    },
+    {
+      "epoch": 4.74,
+      "eval_loss": 1.4702121019363403,
+      "eval_runtime": 43.7967,
+      "eval_samples_per_second": 207.276,
+      "eval_steps_per_second": 12.969,
+      "step": 21500
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 1.2669333333333334e-05,
+      "loss": 1.4375,
+      "step": 22000
+    },
+    {
+      "epoch": 4.85,
+      "eval_loss": 1.4648058414459229,
+      "eval_runtime": 43.2759,
+      "eval_samples_per_second": 209.77,
+      "eval_steps_per_second": 13.125,
+      "step": 22000
+    },
+    {
+      "epoch": 4.96,
+      "learning_rate": 1.2502666666666668e-05,
+      "loss": 1.4093,
+      "step": 22500
+    },
+    {
+      "epoch": 4.96,
+      "eval_loss": 1.452415108680725,
+      "eval_runtime": 43.4383,
+      "eval_samples_per_second": 208.986,
+      "eval_steps_per_second": 13.076,
+      "step": 22500
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 1.2336000000000002e-05,
+      "loss": 1.3688,
+      "step": 23000
+    },
+    {
+      "epoch": 5.07,
+      "eval_loss": 1.4525853395462036,
+      "eval_runtime": 44.7597,
+      "eval_samples_per_second": 202.816,
+      "eval_steps_per_second": 12.69,
+      "step": 23000
+    },
+    {
+      "epoch": 5.18,
+      "learning_rate": 1.2169333333333336e-05,
+      "loss": 1.3704,
+      "step": 23500
+    },
+    {
+      "epoch": 5.18,
+      "eval_loss": 1.4470324516296387,
+      "eval_runtime": 45.0353,
+      "eval_samples_per_second": 201.575,
+      "eval_steps_per_second": 12.612,
+      "step": 23500
+    },
+    {
+      "epoch": 5.29,
+      "learning_rate": 1.2003e-05,
+      "loss": 1.3672,
+      "step": 24000
+    },
+    {
+      "epoch": 5.29,
+      "eval_loss": 1.4429727792739868,
+      "eval_runtime": 48.0671,
+      "eval_samples_per_second": 188.861,
+      "eval_steps_per_second": 11.817,
+      "step": 24000
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 1.1836333333333334e-05,
+      "loss": 1.3484,
+      "step": 24500
+    },
+    {
+      "epoch": 5.4,
+      "eval_loss": 1.4372690916061401,
+      "eval_runtime": 45.4091,
+      "eval_samples_per_second": 199.916,
+      "eval_steps_per_second": 12.508,
+      "step": 24500
+    },
+    {
+      "epoch": 5.51,
+      "learning_rate": 1.1669666666666668e-05,
+      "loss": 1.3446,
+      "step": 25000
+    },
+    {
+      "epoch": 5.51,
+      "eval_loss": 1.4315961599349976,
+      "eval_runtime": 44.7878,
+      "eval_samples_per_second": 202.689,
+      "eval_steps_per_second": 12.682,
+      "step": 25000
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 1.1503000000000002e-05,
+      "loss": 1.3445,
+      "step": 25500
+    },
+    {
+      "epoch": 5.62,
+      "eval_loss": 1.4315000772476196,
+      "eval_runtime": 45.134,
+      "eval_samples_per_second": 201.134,
+      "eval_steps_per_second": 12.585,
+      "step": 25500
+    },
+    {
+      "epoch": 5.73,
+      "learning_rate": 1.1336333333333334e-05,
+      "loss": 1.3236,
+      "step": 26000
+    },
+    {
+      "epoch": 5.73,
+      "eval_loss": 1.424834132194519,
+      "eval_runtime": 44.2677,
+      "eval_samples_per_second": 205.07,
+      "eval_steps_per_second": 12.831,
+      "step": 26000
+    },
+    {
+      "epoch": 5.84,
+      "learning_rate": 1.1169666666666667e-05,
+      "loss": 1.3061,
+      "step": 26500
+    },
+    {
+      "epoch": 5.84,
+      "eval_loss": 1.4215062856674194,
+      "eval_runtime": 44.2542,
+      "eval_samples_per_second": 205.133,
+      "eval_steps_per_second": 12.835,
+      "step": 26500
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 1.1003000000000001e-05,
+      "loss": 1.3083,
+      "step": 27000
+    },
+    {
+      "epoch": 5.95,
+      "eval_loss": 1.4195761680603027,
+      "eval_runtime": 44.381,
+      "eval_samples_per_second": 204.547,
+      "eval_steps_per_second": 12.798,
+      "step": 27000
+    },
+    {
+      "epoch": 6.06,
+      "learning_rate": 1.0836333333333333e-05,
+      "loss": 1.2689,
+      "step": 27500
+    },
+    {
+      "epoch": 6.06,
+      "eval_loss": 1.4157874584197998,
+      "eval_runtime": 44.2987,
+      "eval_samples_per_second": 204.927,
+      "eval_steps_per_second": 12.822,
+      "step": 27500
+    },
+    {
+      "epoch": 6.17,
+      "learning_rate": 1.0669666666666667e-05,
+      "loss": 1.2813,
+      "step": 28000
+    },
+    {
+      "epoch": 6.17,
+      "eval_loss": 1.4157196283340454,
+      "eval_runtime": 44.6759,
+      "eval_samples_per_second": 203.197,
+      "eval_steps_per_second": 12.714,
+      "step": 28000
+    },
+    {
+      "epoch": 6.28,
+      "learning_rate": 1.0503333333333335e-05,
+      "loss": 1.2863,
+      "step": 28500
+    },
+    {
+      "epoch": 6.28,
+      "eval_loss": 1.41006338596344,
+      "eval_runtime": 44.666,
+      "eval_samples_per_second": 203.242,
+      "eval_steps_per_second": 12.717,
+      "step": 28500
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 1.0336666666666669e-05,
+      "loss": 1.2668,
+      "step": 29000
+    },
+    {
+      "epoch": 6.39,
+      "eval_loss": 1.403244972229004,
+      "eval_runtime": 44.6624,
+      "eval_samples_per_second": 203.258,
+      "eval_steps_per_second": 12.718,
+      "step": 29000
+    },
+    {
+      "epoch": 6.5,
+      "learning_rate": 1.017e-05,
+      "loss": 1.2631,
+      "step": 29500
+    },
+    {
+      "epoch": 6.5,
+      "eval_loss": 1.4050610065460205,
+      "eval_runtime": 44.987,
+      "eval_samples_per_second": 201.792,
+      "eval_steps_per_second": 12.626,
+      "step": 29500
+    },
+    {
+      "epoch": 6.61,
+      "learning_rate": 1.0003333333333333e-05,
+      "loss": 1.2543,
+      "step": 30000
+    },
+    {
+      "epoch": 6.61,
+      "eval_loss": 1.3968815803527832,
+      "eval_runtime": 45.3856,
+      "eval_samples_per_second": 200.019,
+      "eval_steps_per_second": 12.515,
+      "step": 30000
+    },
+    {
+      "epoch": 6.72,
+      "learning_rate": 9.836666666666668e-06,
+      "loss": 1.2552,
+      "step": 30500
+    },
+    {
+      "epoch": 6.72,
+      "eval_loss": 1.3993921279907227,
+      "eval_runtime": 44.6433,
+      "eval_samples_per_second": 203.345,
+      "eval_steps_per_second": 12.723,
+      "step": 30500
+    },
+    {
+      "epoch": 6.83,
+      "learning_rate": 9.67e-06,
+      "loss": 1.2626,
+      "step": 31000
+    },
+    {
+      "epoch": 6.83,
+      "eval_loss": 1.387181043624878,
+      "eval_runtime": 44.4948,
+      "eval_samples_per_second": 204.024,
+      "eval_steps_per_second": 12.766,
+      "step": 31000
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 9.503333333333334e-06,
+      "loss": 1.2396,
+      "step": 31500
+    },
+    {
+      "epoch": 6.94,
+      "eval_loss": 1.3914097547531128,
+      "eval_runtime": 44.936,
+      "eval_samples_per_second": 202.021,
+      "eval_steps_per_second": 12.64,
+      "step": 31500
+    },
+    {
+      "epoch": 7.05,
+      "learning_rate": 9.336666666666666e-06,
+      "loss": 1.2419,
+      "step": 32000
+    },
+    {
+      "epoch": 7.05,
+      "eval_loss": 1.3853869438171387,
+      "eval_runtime": 44.4747,
+      "eval_samples_per_second": 204.116,
+      "eval_steps_per_second": 12.771,
+      "step": 32000
+    },
+    {
+      "epoch": 7.16,
+      "learning_rate": 9.17e-06,
+      "loss": 1.2421,
+      "step": 32500
+    },
+    {
+      "epoch": 7.16,
+      "eval_loss": 1.3801844120025635,
+      "eval_runtime": 44.8621,
+      "eval_samples_per_second": 202.353,
+      "eval_steps_per_second": 12.661,
+      "step": 32500
+    },
+    {
+      "epoch": 7.27,
+      "learning_rate": 9.003333333333334e-06,
+      "loss": 1.2177,
+      "step": 33000
+    },
+    {
+      "epoch": 7.27,
+      "eval_loss": 1.380096673965454,
+      "eval_runtime": 45.1593,
+      "eval_samples_per_second": 201.022,
+      "eval_steps_per_second": 12.578,
+      "step": 33000
+    },
+    {
+      "epoch": 7.38,
+      "learning_rate": 8.836666666666668e-06,
+      "loss": 1.2292,
+      "step": 33500
+    },
+    {
+      "epoch": 7.38,
+      "eval_loss": 1.3730745315551758,
+      "eval_runtime": 44.6177,
+      "eval_samples_per_second": 203.462,
+      "eval_steps_per_second": 12.73,
+      "step": 33500
+    },
+    {
+      "epoch": 7.49,
+      "learning_rate": 8.67e-06,
+      "loss": 1.2131,
+      "step": 34000
+    },
+    {
+      "epoch": 7.49,
+      "eval_loss": 1.370631217956543,
+      "eval_runtime": 45.0076,
+      "eval_samples_per_second": 201.699,
+      "eval_steps_per_second": 12.62,
+      "step": 34000
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 8.503666666666668e-06,
+      "loss": 1.227,
+      "step": 34500
+    },
+    {
+      "epoch": 7.6,
+      "eval_loss": 1.3661019802093506,
+      "eval_runtime": 44.9507,
+      "eval_samples_per_second": 201.955,
+      "eval_steps_per_second": 12.636,
+      "step": 34500
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 8.337e-06,
+      "loss": 1.2158,
+      "step": 35000
+    },
+    {
+      "epoch": 7.71,
+      "eval_loss": 1.3633307218551636,
+      "eval_runtime": 44.5235,
+      "eval_samples_per_second": 203.892,
+      "eval_steps_per_second": 12.757,
+      "step": 35000
+    },
+    {
+      "epoch": 7.82,
+      "learning_rate": 8.170333333333334e-06,
+      "loss": 1.2194,
+      "step": 35500
+    },
+    {
+      "epoch": 7.82,
+      "eval_loss": 1.3616106510162354,
+      "eval_runtime": 45.4373,
+      "eval_samples_per_second": 199.792,
+      "eval_steps_per_second": 12.501,
+      "step": 35500
+    },
+    {
+      "epoch": 7.93,
+      "learning_rate": 8.004e-06,
+      "loss": 1.2261,
+      "step": 36000
+    },
+    {
+      "epoch": 7.93,
+      "eval_loss": 1.357163429260254,
+      "eval_runtime": 45.4325,
+      "eval_samples_per_second": 199.813,
+      "eval_steps_per_second": 12.502,
+      "step": 36000
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 7.837666666666666e-06,
+      "loss": 1.218,
+      "step": 36500
+    },
+    {
+      "epoch": 8.04,
+      "eval_loss": 1.3611406087875366,
+      "eval_runtime": 44.5114,
+      "eval_samples_per_second": 203.948,
+      "eval_steps_per_second": 12.761,
+      "step": 36500
+    },
+    {
+      "epoch": 8.15,
+      "learning_rate": 7.671e-06,
+      "loss": 1.1658,
+      "step": 37000
+    },
+    {
+      "epoch": 8.15,
+      "eval_loss": 1.356821060180664,
+      "eval_runtime": 44.6544,
+      "eval_samples_per_second": 203.295,
+      "eval_steps_per_second": 12.72,
+      "step": 37000
+    },
+    {
+      "epoch": 8.26,
+      "learning_rate": 7.504333333333334e-06,
+      "loss": 1.1652,
+      "step": 37500
+    },
+    {
+      "epoch": 8.26,
+      "eval_loss": 1.35381281375885,
+      "eval_runtime": 45.0638,
+      "eval_samples_per_second": 201.448,
+      "eval_steps_per_second": 12.604,
+      "step": 37500
+    },
+    {
+      "epoch": 8.37,
+      "learning_rate": 7.3376666666666675e-06,
+      "loss": 1.1686,
+      "step": 38000
+    },
+    {
+      "epoch": 8.37,
+      "eval_loss": 1.3533384799957275,
+      "eval_runtime": 44.2795,
+      "eval_samples_per_second": 205.016,
+      "eval_steps_per_second": 12.828,
+      "step": 38000
+    },
+    {
+      "epoch": 8.48,
+      "learning_rate": 7.1710000000000005e-06,
+      "loss": 1.1666,
+      "step": 38500
+    },
+    {
+      "epoch": 8.48,
+      "eval_loss": 1.3513332605361938,
+      "eval_runtime": 44.2333,
+      "eval_samples_per_second": 205.23,
+      "eval_steps_per_second": 12.841,
+      "step": 38500
+    },
+    {
+      "epoch": 8.59,
+      "learning_rate": 7.004333333333334e-06,
+      "loss": 1.1827,
+      "step": 39000
+    },
+    {
+      "epoch": 8.59,
+      "eval_loss": 1.3496123552322388,
+      "eval_runtime": 44.8817,
+      "eval_samples_per_second": 202.265,
+      "eval_steps_per_second": 12.655,
+      "step": 39000
+    },
+    {
+      "epoch": 8.7,
+      "learning_rate": 6.837666666666667e-06,
+      "loss": 1.1643,
+      "step": 39500
+    },
+    {
+      "epoch": 8.7,
+      "eval_loss": 1.3474962711334229,
+      "eval_runtime": 44.7028,
+      "eval_samples_per_second": 203.074,
+      "eval_steps_per_second": 12.706,
+      "step": 39500
+    },
+    {
+      "epoch": 8.81,
+      "learning_rate": 6.671000000000001e-06,
+      "loss": 1.1651,
+      "step": 40000
+    },
+    {
+      "epoch": 8.81,
+      "eval_loss": 1.3451054096221924,
+      "eval_runtime": 44.3384,
+      "eval_samples_per_second": 204.743,
+      "eval_steps_per_second": 12.811,
+      "step": 40000
+    },
+    {
+      "epoch": 8.92,
+      "learning_rate": 6.504333333333334e-06,
+      "loss": 1.1696,
+      "step": 40500
+    },
+    {
+      "epoch": 8.92,
+      "eval_loss": 1.3412760496139526,
+      "eval_runtime": 44.0851,
+      "eval_samples_per_second": 205.92,
+      "eval_steps_per_second": 12.884,
+      "step": 40500
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 6.337666666666668e-06,
+      "loss": 1.1582,
+      "step": 41000
+    },
+    {
+      "epoch": 9.03,
+      "eval_loss": 1.3448957204818726,
+      "eval_runtime": 43.2139,
+      "eval_samples_per_second": 210.071,
+      "eval_steps_per_second": 13.144,
+      "step": 41000
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 6.171000000000001e-06,
+      "loss": 1.152,
+      "step": 41500
+    },
+    {
+      "epoch": 9.14,
+      "eval_loss": 1.3436229228973389,
+      "eval_runtime": 43.5301,
+      "eval_samples_per_second": 208.545,
+      "eval_steps_per_second": 13.048,
+      "step": 41500
+    },
+    {
+      "epoch": 9.25,
+      "learning_rate": 6.004666666666668e-06,
+      "loss": 1.1177,
+      "step": 42000
+    },
+    {
+      "epoch": 9.25,
+      "eval_loss": 1.3422951698303223,
+      "eval_runtime": 43.2428,
+      "eval_samples_per_second": 209.931,
+      "eval_steps_per_second": 13.135,
+      "step": 42000
+    },
+    {
+      "epoch": 9.36,
+      "learning_rate": 5.838000000000001e-06,
+      "loss": 1.1195,
+      "step": 42500
+    },
+    {
+      "epoch": 9.36,
+      "eval_loss": 1.340394139289856,
+      "eval_runtime": 43.8891,
+      "eval_samples_per_second": 206.839,
+      "eval_steps_per_second": 12.942,
+      "step": 42500
+    },
+    {
+      "epoch": 9.47,
+      "learning_rate": 5.6713333333333345e-06,
+      "loss": 1.1389,
+      "step": 43000
+    },
+    {
+      "epoch": 9.47,
+      "eval_loss": 1.3390538692474365,
+      "eval_runtime": 43.1572,
+      "eval_samples_per_second": 210.347,
+      "eval_steps_per_second": 13.161,
+      "step": 43000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 60000,
+  "num_train_epochs": 14,
+  "save_steps": 500,
+  "total_flos": 4.359025938019123e+16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-43000/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2937595315976c76b924187e8a40420b986d12550a38400a758323718071411a
+size 4664