Hubert commit

Browse files

Files changed (12) hide show

config.json +54 -0
merges.txt +0 -0
optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +23 -0
tokenizer.json +0 -0
tokenizer_config.json +34 -0
trainer_state.json +256 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "_name_or_path": "MBZUAI/LaMini-Neo-125M",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPTNeoForCausalLM"
+  ],
+  "attention_dropout": 0,
+  "attention_layers": [
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local",
+    "global",
+    "local"
+  ],
+  "attention_types": [
+    [
+      [
+        "global",
+        "local"
+      ],
+      6
+    ]
+  ],
+  "bos_token_id": 50256,
+  "embed_dropout": 0,
+  "eos_token_id": 50256,
+  "gradient_checkpointing": false,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": null,
+  "layer_norm_epsilon": 1e-05,
+  "max_position_embeddings": 2048,
+  "model_type": "gpt_neo",
+  "num_heads": 12,
+  "num_layers": 12,
+  "resid_dropout": 0,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.20.1",
+  "use_cache": false,
+  "vocab_size": 50258,
+  "window_size": 256
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bae30acb738a4d84ac330fa7ace702e32240ab76fdaa622aa39e444203b1ea83
+size 1001687745

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a97314a5f31f6343d71f556fd650d438cdeb0aa19ef2ea3175c24a77d191b51
+size 551188177

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0217759d118441b4ad07c71fd1be8c09ef99c4c1b9ca5ace0ae209a8872fb667
+size 14503

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b42cb14d666e534ebfdde54b55fdfa95b18ead1daf1103b0c5381954b58b662a
+size 623

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "errors": "replace",
+  "model_max_length": 2048,
+  "name_or_path": "EleutherAI/gpt-neo-125m",
+  "pad_token": null,
+  "special_tokens_map_file": null,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,256 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 14.619883040935672,
+  "global_step": 10000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.0002966863033873343,
+      "loss": 0.6757,
+      "step": 250
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 0.00029116347569955813,
+      "loss": 0.516,
+      "step": 500
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 0.00028564064801178197,
+      "loss": 0.4685,
+      "step": 750
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00028011782032400586,
+      "loss": 0.4306,
+      "step": 1000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.0002745949926362297,
+      "loss": 0.4228,
+      "step": 1250
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 0.0002690721649484536,
+      "loss": 0.3927,
+      "step": 1500
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 0.0002635493372606774,
+      "loss": 0.3716,
+      "step": 1750
+    },
+    {
+      "epoch": 2.92,
+      "learning_rate": 0.0002580265095729013,
+      "loss": 0.3724,
+      "step": 2000
+    },
+    {
+      "epoch": 3.29,
+      "learning_rate": 0.00025250368188512514,
+      "loss": 0.3353,
+      "step": 2250
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 0.000246980854197349,
+      "loss": 0.3312,
+      "step": 2500
+    },
+    {
+      "epoch": 4.02,
+      "learning_rate": 0.0002414580265095729,
+      "loss": 0.3317,
+      "step": 2750
+    },
+    {
+      "epoch": 4.39,
+      "learning_rate": 0.00023593519882179672,
+      "loss": 0.2892,
+      "step": 3000
+    },
+    {
+      "epoch": 4.75,
+      "learning_rate": 0.0002304123711340206,
+      "loss": 0.2968,
+      "step": 3250
+    },
+    {
+      "epoch": 5.12,
+      "learning_rate": 0.00022488954344624445,
+      "loss": 0.2817,
+      "step": 3500
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 0.0002193667157584683,
+      "loss": 0.2557,
+      "step": 3750
+    },
+    {
+      "epoch": 5.85,
+      "learning_rate": 0.00021384388807069217,
+      "loss": 0.2622,
+      "step": 4000
+    },
+    {
+      "epoch": 6.21,
+      "learning_rate": 0.00020832106038291603,
+      "loss": 0.234,
+      "step": 4250
+    },
+    {
+      "epoch": 6.58,
+      "learning_rate": 0.0002027982326951399,
+      "loss": 0.2228,
+      "step": 4500
+    },
+    {
+      "epoch": 6.94,
+      "learning_rate": 0.00019727540500736376,
+      "loss": 0.2292,
+      "step": 4750
+    },
+    {
+      "epoch": 7.31,
+      "learning_rate": 0.0001917525773195876,
+      "loss": 0.1906,
+      "step": 5000
+    },
+    {
+      "epoch": 7.68,
+      "learning_rate": 0.00018622974963181148,
+      "loss": 0.19,
+      "step": 5250
+    },
+    {
+      "epoch": 8.04,
+      "learning_rate": 0.00018070692194403532,
+      "loss": 0.1914,
+      "step": 5500
+    },
+    {
+      "epoch": 8.41,
+      "learning_rate": 0.0001751840942562592,
+      "loss": 0.1542,
+      "step": 5750
+    },
+    {
+      "epoch": 8.77,
+      "learning_rate": 0.00016966126656848304,
+      "loss": 0.1615,
+      "step": 6000
+    },
+    {
+      "epoch": 9.14,
+      "learning_rate": 0.00016413843888070693,
+      "loss": 0.1495,
+      "step": 6250
+    },
+    {
+      "epoch": 9.5,
+      "learning_rate": 0.00015861561119293076,
+      "loss": 0.1286,
+      "step": 6500
+    },
+    {
+      "epoch": 9.87,
+      "learning_rate": 0.00015309278350515463,
+      "loss": 0.1343,
+      "step": 6750
+    },
+    {
+      "epoch": 10.23,
+      "learning_rate": 0.0001475699558173785,
+      "loss": 0.1151,
+      "step": 7000
+    },
+    {
+      "epoch": 10.6,
+      "learning_rate": 0.00014204712812960235,
+      "loss": 0.1071,
+      "step": 7250
+    },
+    {
+      "epoch": 10.96,
+      "learning_rate": 0.0001365243004418262,
+      "loss": 0.1114,
+      "step": 7500
+    },
+    {
+      "epoch": 11.33,
+      "learning_rate": 0.00013100147275405007,
+      "loss": 0.0887,
+      "step": 7750
+    },
+    {
+      "epoch": 11.7,
+      "learning_rate": 0.00012547864506627394,
+      "loss": 0.0901,
+      "step": 8000
+    },
+    {
+      "epoch": 12.06,
+      "learning_rate": 0.00011995581737849778,
+      "loss": 0.0898,
+      "step": 8250
+    },
+    {
+      "epoch": 12.43,
+      "learning_rate": 0.00011443298969072163,
+      "loss": 0.0745,
+      "step": 8500
+    },
+    {
+      "epoch": 12.79,
+      "learning_rate": 0.0001089101620029455,
+      "loss": 0.0778,
+      "step": 8750
+    },
+    {
+      "epoch": 13.16,
+      "learning_rate": 0.00010338733431516936,
+      "loss": 0.073,
+      "step": 9000
+    },
+    {
+      "epoch": 13.52,
+      "learning_rate": 9.786450662739322e-05,
+      "loss": 0.067,
+      "step": 9250
+    },
+    {
+      "epoch": 13.89,
+      "learning_rate": 9.234167893961708e-05,
+      "loss": 0.069,
+      "step": 9500
+    },
+    {
+      "epoch": 14.25,
+      "learning_rate": 8.681885125184094e-05,
+      "loss": 0.0628,
+      "step": 9750
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 8.129602356406479e-05,
+      "loss": 0.0616,
+      "step": 10000
+    }
+  ],
+  "max_steps": 13680,
+  "num_train_epochs": 20,
+  "total_flos": 8.358078580103578e+16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:23f0228fbd69c4e4cec2641cb901e0db47c1715286281a9d69e881f5e8306bc1
+size 3247

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff