init

Browse files

Files changed (12) hide show

config.json +31 -0
generation_config.json +6 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +5 -0
spiece.model +3 -0
tokenizer.json +3 -0
tokenizer_config.json +11 -0
trainer_state.json +238 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_name_or_path": "/content/hebrew_summarizer/models/checkpoint-214000",
+  "architectures": [
+    "MT5ForConditionalGeneration"
+  ],
+  "d_ff": 1024,
+  "d_kv": 64,
+  "d_model": 512,
+  "decoder_start_token_id": 0,
+  "dense_act_fn": "gelu_new",
+  "dropout_rate": 0.1,
+  "eos_token_id": 1,
+  "feed_forward_proj": "gated-gelu",
+  "initializer_factor": 1.0,
+  "is_encoder_decoder": true,
+  "is_gated_act": true,
+  "layer_norm_epsilon": 1e-06,
+  "model_type": "mt5",
+  "num_decoder_layers": 8,
+  "num_heads": 6,
+  "num_layers": 8,
+  "pad_token_id": 0,
+  "relative_attention_max_distance": 128,
+  "relative_attention_num_buckets": 32,
+  "tie_word_embeddings": false,
+  "tokenizer_class": "T5Tokenizer",
+  "torch_dtype": "float32",
+  "transformers_version": "4.30.2",
+  "use_cache": true,
+  "vocab_size": 250112
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "decoder_start_token_id": 0,
+  "eos_token_id": 1,
+  "pad_token_id": 0,
+  "transformers_version": "4.30.2"
+}

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eaccdc6e6593b146494813ce8c8292c30e77d72b6b1a7f64b485b7a0beb80ba3
+size 2401526853

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e38080ecf2092509defc1ca898f75e6c7fd67eec0ee42801f4370fec19214fe
+size 1200772485

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d07bd62ce66ea7aeeb489a5c1abc6ff560d6467a406097aacc45ea750c8b735
+size 14575

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:859134712128b716fc41369fd4360d64c58ceee1c4467ad0da42a7d2a51672e1
+size 627

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>"
+}

spiece.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef78f86560d809067d12bac6c09f19a462cb3af3f54d2b8acbba26e1433125d6
+size 4309802

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db89e268649033b2f206501b13ff4b4edb14f23e84934fb956db725fcacdead8
+size 16330467

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "additional_special_tokens": null,
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "<pad>",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "T5Tokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,238 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.25773554939466975,
+  "global_step": 18500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.965170871703423e-05,
+      "loss": 3.2187,
+      "step": 500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 4.9303417434068464e-05,
+      "loss": 3.2319,
+      "step": 1000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.8955126151102695e-05,
+      "loss": 3.2003,
+      "step": 1500
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.8606834868136925e-05,
+      "loss": 3.2206,
+      "step": 2000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 4.825854358517115e-05,
+      "loss": 3.2168,
+      "step": 2500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 4.791025230220538e-05,
+      "loss": 3.2134,
+      "step": 3000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.756196101923962e-05,
+      "loss": 3.2317,
+      "step": 3500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.721366973627384e-05,
+      "loss": 3.2235,
+      "step": 4000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 4.686537845330807e-05,
+      "loss": 3.2294,
+      "step": 4500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 4.65170871703423e-05,
+      "loss": 3.225,
+      "step": 5000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.6168795887376534e-05,
+      "loss": 3.2082,
+      "step": 5500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 4.5820504604410765e-05,
+      "loss": 3.2202,
+      "step": 6000
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 4.5472213321444996e-05,
+      "loss": 3.221,
+      "step": 6500
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.512392203847922e-05,
+      "loss": 3.2042,
+      "step": 7000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 4.477563075551345e-05,
+      "loss": 3.1977,
+      "step": 7500
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 4.442733947254769e-05,
+      "loss": 3.1891,
+      "step": 8000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 4.407904818958191e-05,
+      "loss": 3.2053,
+      "step": 8500
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.373075690661614e-05,
+      "loss": 3.2168,
+      "step": 9000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 4.3382465623650374e-05,
+      "loss": 3.2138,
+      "step": 9500
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 4.3034174340684604e-05,
+      "loss": 3.1905,
+      "step": 10000
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.2685883057718835e-05,
+      "loss": 3.1923,
+      "step": 10500
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 4.2337591774753066e-05,
+      "loss": 3.1953,
+      "step": 11000
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 4.198930049178729e-05,
+      "loss": 3.1958,
+      "step": 11500
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.164100920882153e-05,
+      "loss": 3.1885,
+      "step": 12000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 4.129271792585576e-05,
+      "loss": 3.1701,
+      "step": 12500
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 4.094442664288998e-05,
+      "loss": 3.1908,
+      "step": 13000
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 4.059613535992421e-05,
+      "loss": 3.1618,
+      "step": 13500
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 4.0247844076958444e-05,
+      "loss": 3.1917,
+      "step": 14000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3.9899552793992674e-05,
+      "loss": 3.1812,
+      "step": 14500
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 3.9551261511026905e-05,
+      "loss": 3.1794,
+      "step": 15000
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.9202970228061136e-05,
+      "loss": 3.1902,
+      "step": 15500
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.885467894509536e-05,
+      "loss": 3.18,
+      "step": 16000
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 3.85063876621296e-05,
+      "loss": 3.1849,
+      "step": 16500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.815809637916383e-05,
+      "loss": 3.1857,
+      "step": 17000
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 3.780980509619805e-05,
+      "loss": 3.1577,
+      "step": 17500
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 3.746151381323228e-05,
+      "loss": 3.1878,
+      "step": 18000
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 3.7113222530266514e-05,
+      "loss": 3.1512,
+      "step": 18500
+    }
+  ],
+  "max_steps": 71779,
+  "num_train_epochs": 1,
+  "total_flos": 3.912747299426304e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdd2ede304499b70004b44929f6b74256a4aca9a97d49260341cf49cfd302165
+size 4091