Upload 8 files

Browse files

Files changed (7) hide show

config.json +54 -32
model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +66 -1266
training_args.bin +3 -0

config.json CHANGED Viewed

@@ -1,20 +1,16 @@
 {
   "_name_or_path": "ayjays132/CustomGPT2Conversational",
-  "model_type": "gpt2",
   "architectures": [
     "GPT2LMHeadModel"
   ],
-  "tokenizer_config": {
-    "bos_token_id": 50256,
-    "eos_token_id": 50256,
-    "n_positions": 2048,
-    "padding_side": "left",
-    "truncation_side": "right"
-  },
   "config": {
     "activation_function": "gelu_new",
     "attn_pdrop": 0.1,
     "embd_pdrop": 0.1,
     "initializer_range": 0.02,
     "layer_norm_epsilon": 1e-05,
     "n_ctx": 2048,
@@ -23,40 +19,66 @@
     "n_layer": 36,
     "n_positions": 2048,
     "resid_pdrop": 0.1,
-    "vocab_size": 50257,
     "scale_attn_weights": true,
-    "gradient_checkpointing": true,
-    "use_cache": true
-  },
-  "task_specific_params": {
-    "conversational": {
-      "max_length": 1024,
-      "min_length": 20,
-      "temperature": 0.7,
-      "top_k": 40,
-      "top_p": 0.95,
-      "num_beams": 5,
-      "no_repeat_ngram_size": 3,
-      "early_stopping": true,
-      "length_penalty": 2.0,
-      "do_sample": true,
-      "frequency_penalty": 0.5,
-      "presence_penalty": 0.5
-    }
   },
-  "use_cache": true,
-  "torch_dtype": "float32",
-  "transformers_version": "4.37.2",
-  "library_name": "transformers",
   "language": "en",
   "license": "apache-2.0",
   "metrics": [
     "perplexity",
     "accuracy"
   ],
   "pipeline_tag": "conversational",
   "tags": [
     "conversational",
     "state-of-the-art"
-  ]
 }

 {
   "_name_or_path": "ayjays132/CustomGPT2Conversational",
+  "activation_function": "gelu_new",
   "architectures": [
     "GPT2LMHeadModel"
   ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
   "config": {
     "activation_function": "gelu_new",
     "attn_pdrop": 0.1,
     "embd_pdrop": 0.1,
+    "gradient_checkpointing": true,
     "initializer_range": 0.02,
     "layer_norm_epsilon": 1e-05,
     "n_ctx": 2048,
     "n_layer": 36,
     "n_positions": 2048,
     "resid_pdrop": 0.1,
     "scale_attn_weights": true,
+    "use_cache": true,
+    "vocab_size": 50257
   },
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
   "language": "en",
+  "layer_norm_epsilon": 1e-05,
+  "library_name": "transformers",
   "license": "apache-2.0",
   "metrics": [
     "perplexity",
     "accuracy"
   ],
+  "model_type": "gpt2",
+  "n_embd": 768,
+  "n_head": 12,
+  "n_inner": null,
+  "n_layer": 12,
+  "n_positions": 1024,
   "pipeline_tag": "conversational",
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
   "tags": [
     "conversational",
     "state-of-the-art"
+  ],
+  "task_specific_params": {
+    "conversational": {
+      "do_sample": true,
+      "early_stopping": true,
+      "frequency_penalty": 0.5,
+      "length_penalty": 2.0,
+      "max_length": 1024,
+      "min_length": 20,
+      "no_repeat_ngram_size": 3,
+      "num_beams": 5,
+      "presence_penalty": 0.5,
+      "temperature": 0.7,
+      "top_k": 40,
+      "top_p": 0.95
+    }
+  },
+  "tokenizer_config": {
+    "bos_token_id": 50256,
+    "eos_token_id": 50256,
+    "n_positions": 2048,
+    "padding_side": "left",
+    "truncation_side": "right"
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.37.2",
+  "use_cache": true,
+  "vocab_size": 50257
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:234894e33006b6f8051c56c10cc43ed5434adf92889de9b60a74cccdebe415e2
 size 497774208

 version https://git-lfs.github.com/spec/v1
+oid sha256:839abdabb9e2db67117691de736daa0762f8cb9711b916429643a38f4010e757
 size 497774208

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:10301dbc12e92af88759b3c2ab855c88c8a32eb7f92be5e4d309769f3dc84d7b
 size 995642298

 version https://git-lfs.github.com/spec/v1
+oid sha256:c69c7a2ea4b08b80736806da4a78af087235909bc337021f37381bad74760a90
 size 995642298

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e439c091a6dd1bed20a2b779f499076b0ef16fb414bd634c52a62189b7a8caf1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1dede6f4c6fec6e15aded13fe8fa4e3b188a548f0e43da285ecede4459eea5de
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51caff193f407d8c2a2975068aff6341b9daf298781c9f39523eb45070f85df4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4247e447234772e3730d02b6da20c344c682ce3e67dce3060fc52e6286ef180
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,1341 +1,141 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.845789360327375,
   "eval_steps": 500,
-  "global_step": 110000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.05,
-      "learning_rate": 4.986538875726901e-05,
-      "loss": 1.7984,
       "step": 500
     },
     {
-      "epoch": 0.11,
-      "learning_rate": 4.9730777514538016e-05,
-      "loss": 1.88,
       "step": 1000
     },
     {
-      "epoch": 0.16,
-      "learning_rate": 4.959616627180702e-05,
-      "loss": 1.8651,
       "step": 1500
     },
     {
-      "epoch": 0.22,
-      "learning_rate": 4.946155502907603e-05,
-      "loss": 1.8926,
       "step": 2000
     },
     {
-      "epoch": 0.27,
-      "learning_rate": 4.932694378634504e-05,
-      "loss": 1.9214,
       "step": 2500
     },
     {
-      "epoch": 0.32,
-      "learning_rate": 4.9192332543614044e-05,
-      "loss": 1.9036,
       "step": 3000
     },
     {
-      "epoch": 0.38,
-      "learning_rate": 4.905772130088305e-05,
-      "loss": 1.9155,
       "step": 3500
     },
     {
-      "epoch": 0.43,
-      "learning_rate": 4.892311005815206e-05,
-      "loss": 1.9151,
       "step": 4000
     },
     {
-      "epoch": 0.48,
-      "learning_rate": 4.878849881542107e-05,
-      "loss": 1.9263,
       "step": 4500
     },
     {
-      "epoch": 0.54,
-      "learning_rate": 4.865388757269007e-05,
-      "loss": 1.9654,
       "step": 5000
     },
     {
-      "epoch": 0.59,
-      "learning_rate": 4.851927632995908e-05,
-      "loss": 1.9323,
       "step": 5500
     },
     {
-      "epoch": 0.65,
-      "learning_rate": 4.8384665087228085e-05,
-      "loss": 1.9479,
       "step": 6000
     },
     {
-      "epoch": 0.7,
-      "learning_rate": 4.825005384449709e-05,
-      "loss": 1.9513,
       "step": 6500
     },
     {
-      "epoch": 0.75,
-      "learning_rate": 4.8115442601766106e-05,
-      "loss": 1.9623,
       "step": 7000
     },
     {
-      "epoch": 0.81,
-      "learning_rate": 4.798083135903511e-05,
-      "loss": 1.958,
       "step": 7500
     },
     {
-      "epoch": 0.86,
-      "learning_rate": 4.784622011630411e-05,
-      "loss": 1.9854,
       "step": 8000
     },
     {
-      "epoch": 0.92,
-      "learning_rate": 4.771160887357312e-05,
-      "loss": 1.981,
       "step": 8500
     },
     {
-      "epoch": 0.97,
-      "learning_rate": 4.7576997630842127e-05,
-      "loss": 1.9759,
       "step": 9000
     },
     {
-      "epoch": 1.02,
-      "learning_rate": 4.744238638811114e-05,
-      "loss": 1.872,
       "step": 9500
     },
-    {
-      "epoch": 1.08,
-      "learning_rate": 4.730777514538015e-05,
-      "loss": 1.7166,
-      "step": 10000
-    },
-    {
-      "epoch": 1.13,
-      "learning_rate": 4.7173163902649154e-05,
-      "loss": 1.7223,
-      "step": 10500
-    },
-    {
-      "epoch": 1.18,
-      "learning_rate": 4.7038552659918154e-05,
-      "loss": 1.7497,
-      "step": 11000
-    },
-    {
-      "epoch": 1.24,
-      "learning_rate": 4.690394141718716e-05,
-      "loss": 1.7416,
-      "step": 11500
-    },
-    {
-      "epoch": 1.29,
-      "learning_rate": 4.6769330174456175e-05,
-      "loss": 1.7603,
-      "step": 12000
-    },
-    {
-      "epoch": 1.35,
-      "learning_rate": 4.663471893172518e-05,
-      "loss": 1.7939,
-      "step": 12500
-    },
-    {
-      "epoch": 1.4,
-      "learning_rate": 4.650010768899419e-05,
-      "loss": 1.8245,
-      "step": 13000
-    },
-    {
-      "epoch": 1.45,
-      "learning_rate": 4.6365496446263195e-05,
-      "loss": 1.7997,
-      "step": 13500
-    },
-    {
-      "epoch": 1.51,
-      "learning_rate": 4.62308852035322e-05,
-      "loss": 1.8118,
-      "step": 14000
-    },
-    {
-      "epoch": 1.56,
-      "learning_rate": 4.609627396080121e-05,
-      "loss": 1.8217,
-      "step": 14500
-    },
-    {
-      "epoch": 1.62,
-      "learning_rate": 4.5961662718070216e-05,
-      "loss": 1.813,
-      "step": 15000
-    },
-    {
-      "epoch": 1.67,
-      "learning_rate": 4.582705147533922e-05,
-      "loss": 1.8473,
-      "step": 15500
-    },
-    {
-      "epoch": 1.72,
-      "learning_rate": 4.569244023260823e-05,
-      "loss": 1.8383,
-      "step": 16000
-    },
-    {
-      "epoch": 1.78,
-      "learning_rate": 4.555782898987724e-05,
-      "loss": 1.851,
-      "step": 16500
-    },
-    {
-      "epoch": 1.83,
-      "learning_rate": 4.5423217747146244e-05,
-      "loss": 1.869,
-      "step": 17000
-    },
-    {
-      "epoch": 1.88,
-      "learning_rate": 4.528860650441525e-05,
-      "loss": 1.8694,
-      "step": 17500
-    },
-    {
-      "epoch": 1.94,
-      "learning_rate": 4.515399526168426e-05,
-      "loss": 1.8716,
-      "step": 18000
-    },
-    {
-      "epoch": 1.99,
-      "learning_rate": 4.5019384018953264e-05,
-      "loss": 1.8382,
-      "step": 18500
-    },
-    {
-      "epoch": 2.05,
-      "learning_rate": 4.488477277622227e-05,
-      "loss": 1.6506,
-      "step": 19000
-    },
-    {
-      "epoch": 2.1,
-      "learning_rate": 4.475016153349128e-05,
-      "loss": 1.6231,
-      "step": 19500
-    },
     {
       "epoch": 2.15,
-      "learning_rate": 4.461555029076029e-05,
-      "loss": 1.6111,
-      "step": 20000
-    },
-    {
-      "epoch": 2.21,
-      "learning_rate": 4.448093904802929e-05,
-      "loss": 1.6543,
-      "step": 20500
-    },
-    {
-      "epoch": 2.26,
-      "learning_rate": 4.43463278052983e-05,
-      "loss": 1.6816,
-      "step": 21000
-    },
-    {
-      "epoch": 2.32,
-      "learning_rate": 4.4211716562567306e-05,
-      "loss": 1.6582,
-      "step": 21500
-    },
-    {
-      "epoch": 2.37,
-      "learning_rate": 4.407710531983631e-05,
-      "loss": 1.6787,
-      "step": 22000
-    },
-    {
-      "epoch": 2.42,
-      "learning_rate": 4.394249407710532e-05,
-      "loss": 1.7136,
-      "step": 22500
-    },
-    {
-      "epoch": 2.48,
-      "learning_rate": 4.380788283437433e-05,
-      "loss": 1.7168,
-      "step": 23000
-    },
-    {
-      "epoch": 2.53,
-      "learning_rate": 4.367327159164334e-05,
-      "loss": 1.6984,
-      "step": 23500
-    },
-    {
-      "epoch": 2.58,
-      "learning_rate": 4.353866034891234e-05,
-      "loss": 1.7052,
-      "step": 24000
-    },
-    {
-      "epoch": 2.64,
-      "learning_rate": 4.340404910618135e-05,
-      "loss": 1.7213,
-      "step": 24500
-    },
-    {
-      "epoch": 2.69,
-      "learning_rate": 4.3269437863450354e-05,
-      "loss": 1.7305,
-      "step": 25000
-    },
-    {
-      "epoch": 2.75,
-      "learning_rate": 4.313482662071937e-05,
-      "loss": 1.7348,
-      "step": 25500
-    },
-    {
-      "epoch": 2.8,
-      "learning_rate": 4.3000215377988375e-05,
-      "loss": 1.7359,
-      "step": 26000
-    },
-    {
-      "epoch": 2.85,
-      "learning_rate": 4.286560413525738e-05,
-      "loss": 1.7278,
-      "step": 26500
-    },
-    {
-      "epoch": 2.91,
-      "learning_rate": 4.273099289252638e-05,
-      "loss": 1.7558,
-      "step": 27000
-    },
-    {
-      "epoch": 2.96,
-      "learning_rate": 4.259638164979539e-05,
-      "loss": 1.7545,
-      "step": 27500
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 4.24617704070644e-05,
-      "loss": 1.6658,
-      "step": 28000
-    },
-    {
-      "epoch": 3.07,
-      "learning_rate": 4.232715916433341e-05,
-      "loss": 1.4971,
-      "step": 28500
-    },
-    {
-      "epoch": 3.12,
-      "learning_rate": 4.2192547921602416e-05,
-      "loss": 1.519,
-      "step": 29000
-    },
-    {
-      "epoch": 3.18,
-      "learning_rate": 4.205793667887142e-05,
-      "loss": 1.5378,
-      "step": 29500
-    },
-    {
-      "epoch": 3.23,
-      "learning_rate": 4.192332543614042e-05,
-      "loss": 1.556,
-      "step": 30000
-    },
-    {
-      "epoch": 3.28,
-      "learning_rate": 4.1788714193409437e-05,
-      "loss": 1.5828,
-      "step": 30500
-    },
-    {
-      "epoch": 3.34,
-      "learning_rate": 4.1654102950678443e-05,
-      "loss": 1.5704,
-      "step": 31000
-    },
-    {
-      "epoch": 3.39,
-      "learning_rate": 4.151949170794745e-05,
-      "loss": 1.5954,
-      "step": 31500
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 4.138488046521646e-05,
-      "loss": 1.5908,
-      "step": 32000
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 4.1250269222485464e-05,
-      "loss": 1.6013,
-      "step": 32500
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 4.111565797975447e-05,
-      "loss": 1.6179,
-      "step": 33000
-    },
-    {
-      "epoch": 3.61,
-      "learning_rate": 4.098104673702348e-05,
-      "loss": 1.6316,
-      "step": 33500
-    },
-    {
-      "epoch": 3.66,
-      "learning_rate": 4.0846435494292485e-05,
-      "loss": 1.6168,
-      "step": 34000
-    },
-    {
-      "epoch": 3.72,
-      "learning_rate": 4.071182425156149e-05,
-      "loss": 1.6459,
-      "step": 34500
-    },
-    {
-      "epoch": 3.77,
-      "learning_rate": 4.05772130088305e-05,
-      "loss": 1.6441,
-      "step": 35000
-    },
-    {
-      "epoch": 3.82,
-      "learning_rate": 4.0442601766099506e-05,
-      "loss": 1.6658,
-      "step": 35500
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 4.030799052336852e-05,
-      "loss": 1.6688,
-      "step": 36000
-    },
-    {
-      "epoch": 3.93,
-      "learning_rate": 4.017337928063752e-05,
-      "loss": 1.6433,
-      "step": 36500
-    },
-    {
-      "epoch": 3.98,
-      "learning_rate": 4.0038768037906526e-05,
-      "loss": 1.645,
-      "step": 37000
-    },
-    {
-      "epoch": 4.04,
-      "learning_rate": 3.990415679517553e-05,
-      "loss": 1.461,
-      "step": 37500
-    },
-    {
-      "epoch": 4.09,
-      "learning_rate": 3.976954555244454e-05,
-      "loss": 1.4231,
-      "step": 38000
-    },
-    {
-      "epoch": 4.15,
-      "learning_rate": 3.9634934309713554e-05,
-      "loss": 1.4397,
-      "step": 38500
-    },
-    {
-      "epoch": 4.2,
-      "learning_rate": 3.950032306698256e-05,
-      "loss": 1.4422,
-      "step": 39000
-    },
-    {
-      "epoch": 4.25,
-      "learning_rate": 3.936571182425156e-05,
-      "loss": 1.4731,
-      "step": 39500
-    },
-    {
-      "epoch": 4.31,
-      "learning_rate": 3.923110058152057e-05,
-      "loss": 1.4869,
-      "step": 40000
-    },
-    {
-      "epoch": 4.36,
-      "learning_rate": 3.9096489338789575e-05,
-      "loss": 1.4939,
-      "step": 40500
-    },
-    {
-      "epoch": 4.42,
-      "learning_rate": 3.896187809605859e-05,
-      "loss": 1.5142,
-      "step": 41000
-    },
-    {
-      "epoch": 4.47,
-      "learning_rate": 3.8827266853327595e-05,
-      "loss": 1.4907,
-      "step": 41500
-    },
-    {
-      "epoch": 4.52,
-      "learning_rate": 3.86926556105966e-05,
-      "loss": 1.5144,
-      "step": 42000
-    },
-    {
-      "epoch": 4.58,
-      "learning_rate": 3.85580443678656e-05,
-      "loss": 1.5211,
-      "step": 42500
-    },
-    {
-      "epoch": 4.63,
-      "learning_rate": 3.842343312513461e-05,
-      "loss": 1.5204,
-      "step": 43000
-    },
-    {
-      "epoch": 4.68,
-      "learning_rate": 3.828882188240362e-05,
-      "loss": 1.5474,
-      "step": 43500
-    },
-    {
-      "epoch": 4.74,
-      "learning_rate": 3.815421063967263e-05,
-      "loss": 1.5521,
-      "step": 44000
-    },
-    {
-      "epoch": 4.79,
-      "learning_rate": 3.8019599396941636e-05,
-      "loss": 1.5533,
-      "step": 44500
-    },
-    {
-      "epoch": 4.85,
-      "learning_rate": 3.788498815421064e-05,
-      "loss": 1.5394,
-      "step": 45000
-    },
-    {
-      "epoch": 4.9,
-      "learning_rate": 3.775037691147965e-05,
-      "loss": 1.5555,
-      "step": 45500
-    },
-    {
-      "epoch": 4.95,
-      "learning_rate": 3.761576566874865e-05,
-      "loss": 1.5908,
-      "step": 46000
-    },
-    {
-      "epoch": 5.01,
-      "learning_rate": 3.7481154426017664e-05,
-      "loss": 1.5367,
-      "step": 46500
-    },
-    {
-      "epoch": 5.06,
-      "learning_rate": 3.734654318328667e-05,
-      "loss": 1.3431,
-      "step": 47000
-    },
-    {
-      "epoch": 5.12,
-      "learning_rate": 3.721193194055568e-05,
-      "loss": 1.3472,
-      "step": 47500
-    },
-    {
-      "epoch": 5.17,
-      "learning_rate": 3.7077320697824685e-05,
-      "loss": 1.3687,
-      "step": 48000
-    },
-    {
-      "epoch": 5.22,
-      "learning_rate": 3.694270945509369e-05,
-      "loss": 1.3831,
-      "step": 48500
-    },
-    {
-      "epoch": 5.28,
-      "learning_rate": 3.68080982123627e-05,
-      "loss": 1.3774,
-      "step": 49000
-    },
-    {
-      "epoch": 5.33,
-      "learning_rate": 3.6673486969631705e-05,
-      "loss": 1.3933,
-      "step": 49500
-    },
-    {
-      "epoch": 5.38,
-      "learning_rate": 3.653887572690071e-05,
-      "loss": 1.3961,
-      "step": 50000
-    },
-    {
-      "epoch": 5.44,
-      "learning_rate": 3.640426448416972e-05,
-      "loss": 1.4055,
-      "step": 50500
-    },
-    {
-      "epoch": 5.49,
-      "learning_rate": 3.6269653241438726e-05,
-      "loss": 1.4462,
-      "step": 51000
-    },
-    {
-      "epoch": 5.55,
-      "learning_rate": 3.613504199870773e-05,
-      "loss": 1.4235,
-      "step": 51500
-    },
-    {
-      "epoch": 5.6,
-      "learning_rate": 3.600043075597674e-05,
-      "loss": 1.4611,
-      "step": 52000
-    },
-    {
-      "epoch": 5.65,
-      "learning_rate": 3.586581951324575e-05,
-      "loss": 1.4476,
-      "step": 52500
-    },
-    {
-      "epoch": 5.71,
-      "learning_rate": 3.5731208270514754e-05,
-      "loss": 1.4708,
-      "step": 53000
-    },
-    {
-      "epoch": 5.76,
-      "learning_rate": 3.559659702778376e-05,
-      "loss": 1.4818,
-      "step": 53500
-    },
-    {
-      "epoch": 5.82,
-      "learning_rate": 3.546198578505277e-05,
-      "loss": 1.4486,
-      "step": 54000
-    },
-    {
-      "epoch": 5.87,
-      "learning_rate": 3.532737454232178e-05,
-      "loss": 1.466,
-      "step": 54500
-    },
-    {
-      "epoch": 5.92,
-      "learning_rate": 3.519276329959078e-05,
-      "loss": 1.4813,
-      "step": 55000
-    },
-    {
-      "epoch": 5.98,
-      "learning_rate": 3.505815205685979e-05,
-      "loss": 1.4932,
-      "step": 55500
-    },
-    {
-      "epoch": 6.03,
-      "learning_rate": 3.4923540814128795e-05,
-      "loss": 1.3391,
-      "step": 56000
-    },
-    {
-      "epoch": 6.08,
-      "learning_rate": 3.47889295713978e-05,
-      "loss": 1.2801,
-      "step": 56500
-    },
-    {
-      "epoch": 6.14,
-      "learning_rate": 3.4654318328666816e-05,
-      "loss": 1.2803,
-      "step": 57000
-    },
-    {
-      "epoch": 6.19,
-      "learning_rate": 3.451970708593582e-05,
-      "loss": 1.2791,
-      "step": 57500
-    },
-    {
-      "epoch": 6.25,
-      "learning_rate": 3.438509584320483e-05,
-      "loss": 1.297,
-      "step": 58000
-    },
-    {
-      "epoch": 6.3,
-      "learning_rate": 3.425048460047383e-05,
-      "loss": 1.304,
-      "step": 58500
-    },
-    {
-      "epoch": 6.35,
-      "learning_rate": 3.4115873357742836e-05,
-      "loss": 1.3166,
-      "step": 59000
-    },
-    {
-      "epoch": 6.41,
-      "learning_rate": 3.398126211501185e-05,
-      "loss": 1.3318,
-      "step": 59500
-    },
-    {
-      "epoch": 6.46,
-      "learning_rate": 3.384665087228086e-05,
-      "loss": 1.3501,
-      "step": 60000
-    },
-    {
-      "epoch": 6.52,
-      "learning_rate": 3.3712039629549864e-05,
-      "loss": 1.3576,
-      "step": 60500
-    },
-    {
-      "epoch": 6.57,
-      "learning_rate": 3.357742838681887e-05,
-      "loss": 1.3679,
-      "step": 61000
-    },
-    {
-      "epoch": 6.62,
-      "learning_rate": 3.344281714408787e-05,
-      "loss": 1.3905,
-      "step": 61500
-    },
-    {
-      "epoch": 6.68,
-      "learning_rate": 3.3308205901356885e-05,
-      "loss": 1.361,
-      "step": 62000
-    },
-    {
-      "epoch": 6.73,
-      "learning_rate": 3.317359465862589e-05,
-      "loss": 1.3657,
-      "step": 62500
-    },
-    {
-      "epoch": 6.78,
-      "learning_rate": 3.30389834158949e-05,
-      "loss": 1.3768,
-      "step": 63000
-    },
-    {
-      "epoch": 6.84,
-      "learning_rate": 3.2904372173163905e-05,
-      "loss": 1.4069,
-      "step": 63500
-    },
-    {
-      "epoch": 6.89,
-      "learning_rate": 3.276976093043291e-05,
-      "loss": 1.3913,
-      "step": 64000
-    },
-    {
-      "epoch": 6.95,
-      "learning_rate": 3.263514968770192e-05,
-      "loss": 1.3974,
-      "step": 64500
-    },
-    {
-      "epoch": 7.0,
-      "learning_rate": 3.2500538444970926e-05,
-      "loss": 1.4024,
-      "step": 65000
-    },
-    {
-      "epoch": 7.05,
-      "learning_rate": 3.236592720223993e-05,
-      "loss": 1.1818,
-      "step": 65500
-    },
-    {
-      "epoch": 7.11,
-      "learning_rate": 3.223131595950894e-05,
-      "loss": 1.2059,
-      "step": 66000
-    },
-    {
-      "epoch": 7.16,
-      "learning_rate": 3.209670471677795e-05,
-      "loss": 1.2021,
-      "step": 66500
-    },
-    {
-      "epoch": 7.22,
-      "learning_rate": 3.1962093474046954e-05,
-      "loss": 1.2224,
-      "step": 67000
-    },
-    {
-      "epoch": 7.27,
-      "learning_rate": 3.182748223131596e-05,
-      "loss": 1.2637,
-      "step": 67500
-    },
-    {
-      "epoch": 7.32,
-      "learning_rate": 3.169287098858497e-05,
-      "loss": 1.246,
-      "step": 68000
-    },
-    {
-      "epoch": 7.38,
-      "learning_rate": 3.1558259745853974e-05,
-      "loss": 1.2506,
-      "step": 68500
-    },
-    {
-      "epoch": 7.43,
-      "learning_rate": 3.142364850312298e-05,
-      "loss": 1.2749,
-      "step": 69000
-    },
-    {
-      "epoch": 7.48,
-      "learning_rate": 3.128903726039199e-05,
-      "loss": 1.2853,
-      "step": 69500
-    },
-    {
-      "epoch": 7.54,
-      "learning_rate": 3.1154426017660995e-05,
-      "loss": 1.2919,
-      "step": 70000
-    },
-    {
-      "epoch": 7.59,
-      "learning_rate": 3.101981477493001e-05,
-      "loss": 1.307,
-      "step": 70500
-    },
-    {
-      "epoch": 7.65,
-      "learning_rate": 3.088520353219901e-05,
-      "loss": 1.3098,
-      "step": 71000
-    },
-    {
-      "epoch": 7.7,
-      "learning_rate": 3.0750592289468016e-05,
-      "loss": 1.2979,
-      "step": 71500
-    },
-    {
-      "epoch": 7.75,
-      "learning_rate": 3.061598104673702e-05,
-      "loss": 1.3009,
-      "step": 72000
-    },
-    {
-      "epoch": 7.81,
-      "learning_rate": 3.0481369804006033e-05,
-      "loss": 1.2957,
-      "step": 72500
-    },
-    {
-      "epoch": 7.86,
-      "learning_rate": 3.034675856127504e-05,
-      "loss": 1.3204,
-      "step": 73000
-    },
-    {
-      "epoch": 7.92,
-      "learning_rate": 3.021214731854405e-05,
-      "loss": 1.3106,
-      "step": 73500
-    },
-    {
-      "epoch": 7.97,
-      "learning_rate": 3.007753607581305e-05,
-      "loss": 1.3095,
-      "step": 74000
-    },
-    {
-      "epoch": 8.02,
-      "learning_rate": 2.994292483308206e-05,
-      "loss": 1.214,
-      "step": 74500
-    },
-    {
-      "epoch": 8.08,
-      "learning_rate": 2.9808313590351067e-05,
-      "loss": 1.1334,
-      "step": 75000
-    },
-    {
-      "epoch": 8.13,
-      "learning_rate": 2.9673702347620074e-05,
-      "loss": 1.1408,
-      "step": 75500
-    },
-    {
-      "epoch": 8.18,
-      "learning_rate": 2.9539091104889084e-05,
-      "loss": 1.151,
-      "step": 76000
-    },
-    {
-      "epoch": 8.24,
-      "learning_rate": 2.940447986215809e-05,
-      "loss": 1.1552,
-      "step": 76500
-    },
-    {
-      "epoch": 8.29,
-      "learning_rate": 2.9269868619427095e-05,
-      "loss": 1.1694,
-      "step": 77000
-    },
-    {
-      "epoch": 8.35,
-      "learning_rate": 2.9135257376696102e-05,
-      "loss": 1.193,
-      "step": 77500
-    },
-    {
-      "epoch": 8.4,
-      "learning_rate": 2.900064613396511e-05,
-      "loss": 1.1861,
-      "step": 78000
-    },
-    {
-      "epoch": 8.45,
-      "learning_rate": 2.8866034891234116e-05,
-      "loss": 1.1871,
-      "step": 78500
-    },
-    {
-      "epoch": 8.51,
-      "learning_rate": 2.8731423648503126e-05,
-      "loss": 1.2038,
-      "step": 79000
-    },
-    {
-      "epoch": 8.56,
-      "learning_rate": 2.8596812405772133e-05,
-      "loss": 1.2259,
-      "step": 79500
-    },
-    {
-      "epoch": 8.62,
-      "learning_rate": 2.846220116304114e-05,
-      "loss": 1.2174,
-      "step": 80000
-    },
-    {
-      "epoch": 8.67,
-      "learning_rate": 2.8327589920310143e-05,
-      "loss": 1.2217,
-      "step": 80500
-    },
-    {
-      "epoch": 8.72,
-      "learning_rate": 2.819297867757915e-05,
-      "loss": 1.2326,
-      "step": 81000
-    },
-    {
-      "epoch": 8.78,
-      "learning_rate": 2.805836743484816e-05,
-      "loss": 1.2494,
-      "step": 81500
-    },
-    {
-      "epoch": 8.83,
-      "learning_rate": 2.7923756192117167e-05,
-      "loss": 1.2486,
-      "step": 82000
-    },
-    {
-      "epoch": 8.88,
-      "learning_rate": 2.7789144949386174e-05,
-      "loss": 1.2447,
-      "step": 82500
-    },
-    {
-      "epoch": 8.94,
-      "learning_rate": 2.7654533706655184e-05,
-      "loss": 1.2425,
-      "step": 83000
-    },
-    {
-      "epoch": 8.99,
-      "learning_rate": 2.7519922463924185e-05,
-      "loss": 1.258,
-      "step": 83500
-    },
-    {
-      "epoch": 9.05,
-      "learning_rate": 2.7385311221193195e-05,
-      "loss": 1.0903,
-      "step": 84000
-    },
-    {
-      "epoch": 9.1,
-      "learning_rate": 2.7250699978462202e-05,
-      "loss": 1.0811,
-      "step": 84500
-    },
-    {
-      "epoch": 9.15,
-      "learning_rate": 2.711608873573121e-05,
-      "loss": 1.0894,
-      "step": 85000
-    },
-    {
-      "epoch": 9.21,
-      "learning_rate": 2.698147749300022e-05,
-      "loss": 1.1093,
-      "step": 85500
-    },
-    {
-      "epoch": 9.26,
-      "learning_rate": 2.6846866250269226e-05,
-      "loss": 1.0984,
-      "step": 86000
-    },
-    {
-      "epoch": 9.32,
-      "learning_rate": 2.671225500753823e-05,
-      "loss": 1.0906,
-      "step": 86500
-    },
-    {
-      "epoch": 9.37,
-      "learning_rate": 2.6577643764807236e-05,
-      "loss": 1.109,
-      "step": 87000
-    },
-    {
-      "epoch": 9.42,
-      "learning_rate": 2.6443032522076243e-05,
-      "loss": 1.1383,
-      "step": 87500
-    },
-    {
-      "epoch": 9.48,
-      "learning_rate": 2.6308421279345253e-05,
-      "loss": 1.146,
-      "step": 88000
-    },
-    {
-      "epoch": 9.53,
-      "learning_rate": 2.617381003661426e-05,
-      "loss": 1.1484,
-      "step": 88500
-    },
-    {
-      "epoch": 9.58,
-      "learning_rate": 2.6039198793883267e-05,
-      "loss": 1.1512,
-      "step": 89000
-    },
-    {
-      "epoch": 9.64,
-      "learning_rate": 2.5904587551152277e-05,
-      "loss": 1.154,
-      "step": 89500
-    },
-    {
-      "epoch": 9.69,
-      "learning_rate": 2.5769976308421278e-05,
-      "loss": 1.1533,
-      "step": 90000
-    },
-    {
-      "epoch": 9.75,
-      "learning_rate": 2.5635365065690288e-05,
-      "loss": 1.183,
-      "step": 90500
-    },
-    {
-      "epoch": 9.8,
-      "learning_rate": 2.5500753822959295e-05,
-      "loss": 1.1628,
-      "step": 91000
-    },
-    {
-      "epoch": 9.85,
-      "learning_rate": 2.53661425802283e-05,
-      "loss": 1.1586,
-      "step": 91500
-    },
-    {
-      "epoch": 9.91,
-      "learning_rate": 2.5231531337497312e-05,
-      "loss": 1.1968,
-      "step": 92000
-    },
-    {
-      "epoch": 9.96,
-      "learning_rate": 2.509692009476632e-05,
-      "loss": 1.1853,
-      "step": 92500
-    },
-    {
-      "epoch": 10.02,
-      "learning_rate": 2.4962308852035322e-05,
-      "loss": 1.1338,
-      "step": 93000
-    },
-    {
-      "epoch": 10.07,
-      "learning_rate": 2.482769760930433e-05,
-      "loss": 1.0121,
-      "step": 93500
-    },
-    {
-      "epoch": 10.12,
-      "learning_rate": 2.4693086366573336e-05,
-      "loss": 1.0293,
-      "step": 94000
-    },
-    {
-      "epoch": 10.18,
-      "learning_rate": 2.4558475123842346e-05,
-      "loss": 1.0306,
-      "step": 94500
-    },
-    {
-      "epoch": 10.23,
-      "learning_rate": 2.4423863881111353e-05,
-      "loss": 1.0396,
-      "step": 95000
-    },
-    {
-      "epoch": 10.28,
-      "learning_rate": 2.4289252638380357e-05,
-      "loss": 1.0501,
-      "step": 95500
-    },
-    {
-      "epoch": 10.34,
-      "learning_rate": 2.4154641395649367e-05,
-      "loss": 1.0499,
-      "step": 96000
-    },
-    {
-      "epoch": 10.39,
-      "learning_rate": 2.4020030152918374e-05,
-      "loss": 1.0542,
-      "step": 96500
-    },
-    {
-      "epoch": 10.45,
-      "learning_rate": 2.388541891018738e-05,
-      "loss": 1.0756,
-      "step": 97000
-    },
-    {
-      "epoch": 10.5,
-      "learning_rate": 2.3750807667456388e-05,
-      "loss": 1.0793,
-      "step": 97500
-    },
-    {
-      "epoch": 10.55,
-      "learning_rate": 2.3616196424725395e-05,
-      "loss": 1.0988,
-      "step": 98000
-    },
-    {
-      "epoch": 10.61,
-      "learning_rate": 2.34815851819944e-05,
-      "loss": 1.0935,
-      "step": 98500
-    },
-    {
-      "epoch": 10.66,
-      "learning_rate": 2.334697393926341e-05,
-      "loss": 1.091,
-      "step": 99000
-    },
-    {
-      "epoch": 10.72,
-      "learning_rate": 2.3212362696532415e-05,
-      "loss": 1.1021,
-      "step": 99500
-    },
-    {
-      "epoch": 10.77,
-      "learning_rate": 2.3077751453801422e-05,
-      "loss": 1.1107,
-      "step": 100000
-    },
-    {
-      "epoch": 10.82,
-      "learning_rate": 2.294314021107043e-05,
-      "loss": 1.1004,
-      "step": 100500
-    },
-    {
-      "epoch": 10.88,
-      "learning_rate": 2.2808528968339436e-05,
-      "loss": 1.1234,
-      "step": 101000
-    },
-    {
-      "epoch": 10.93,
-      "learning_rate": 2.2673917725608443e-05,
-      "loss": 1.12,
-      "step": 101500
-    },
-    {
-      "epoch": 10.98,
-      "learning_rate": 2.253930648287745e-05,
-      "loss": 1.1295,
-      "step": 102000
-    },
-    {
-      "epoch": 11.04,
-      "learning_rate": 2.240469524014646e-05,
-      "loss": 1.0042,
-      "step": 102500
-    },
-    {
-      "epoch": 11.09,
-      "learning_rate": 2.2270083997415464e-05,
-      "loss": 0.9767,
-      "step": 103000
-    },
-    {
-      "epoch": 11.15,
-      "learning_rate": 2.213547275468447e-05,
-      "loss": 0.9776,
-      "step": 103500
-    },
-    {
-      "epoch": 11.2,
-      "learning_rate": 2.200086151195348e-05,
-      "loss": 0.9777,
-      "step": 104000
-    },
-    {
-      "epoch": 11.25,
-      "learning_rate": 2.1866250269222484e-05,
-      "loss": 0.9975,
-      "step": 104500
-    },
-    {
-      "epoch": 11.31,
-      "learning_rate": 2.1731639026491495e-05,
-      "loss": 1.0122,
-      "step": 105000
-    },
-    {
-      "epoch": 11.36,
-      "learning_rate": 2.15970277837605e-05,
-      "loss": 0.991,
-      "step": 105500
-    },
-    {
-      "epoch": 11.42,
-      "learning_rate": 2.146241654102951e-05,
-      "loss": 1.0095,
-      "step": 106000
-    },
-    {
-      "epoch": 11.47,
-      "learning_rate": 2.1327805298298515e-05,
-      "loss": 1.0179,
-      "step": 106500
-    },
-    {
-      "epoch": 11.52,
-      "learning_rate": 2.1193194055567522e-05,
-      "loss": 1.019,
-      "step": 107000
-    },
-    {
-      "epoch": 11.58,
-      "learning_rate": 2.105858281283653e-05,
-      "loss": 1.0495,
-      "step": 107500
-    },
-    {
-      "epoch": 11.63,
-      "learning_rate": 2.0923971570105536e-05,
-      "loss": 1.0266,
-      "step": 108000
-    },
-    {
-      "epoch": 11.68,
-      "learning_rate": 2.0789360327374543e-05,
-      "loss": 1.0422,
-      "step": 108500
-    },
-    {
-      "epoch": 11.74,
-      "learning_rate": 2.0654749084643553e-05,
-      "loss": 1.0383,
-      "step": 109000
-    },
-    {
-      "epoch": 11.79,
-      "learning_rate": 2.0520137841912557e-05,
-      "loss": 1.0624,
-      "step": 109500
-    },
-    {
-      "epoch": 11.85,
-      "learning_rate": 2.0385526599181564e-05,
-      "loss": 1.064,
-      "step": 110000
     }
   ],
   "logging_steps": 500,
-  "max_steps": 185720,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 20,
   "save_steps": 10000,
-  "total_flos": 1.14965619867648e+17,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.1491510853212983,
   "eval_steps": 500,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.11,
+      "learning_rate": 4.820904076223225e-05,
+      "loss": 1.1625,
       "step": 500
     },
     {
+      "epoch": 0.21,
+      "learning_rate": 4.641808152446451e-05,
+      "loss": 1.1918,
       "step": 1000
     },
     {
+      "epoch": 0.32,
+      "learning_rate": 4.462712228669675e-05,
+      "loss": 1.2037,
       "step": 1500
     },
     {
+      "epoch": 0.43,
+      "learning_rate": 4.283616304892901e-05,
+      "loss": 1.2352,
       "step": 2000
     },
     {
+      "epoch": 0.54,
+      "learning_rate": 4.104520381116126e-05,
+      "loss": 1.2375,
       "step": 2500
     },
     {
+      "epoch": 0.64,
+      "learning_rate": 3.9254244573393514e-05,
+      "loss": 1.2305,
       "step": 3000
     },
     {
+      "epoch": 0.75,
+      "learning_rate": 3.746328533562576e-05,
+      "loss": 1.2822,
       "step": 3500
     },
     {
+      "epoch": 0.86,
+      "learning_rate": 3.567232609785802e-05,
+      "loss": 1.2733,
       "step": 4000
     },
     {
+      "epoch": 0.97,
+      "learning_rate": 3.388136686009026e-05,
+      "loss": 1.2598,
       "step": 4500
     },
     {
+      "epoch": 1.07,
+      "learning_rate": 3.209040762232252e-05,
+      "loss": 1.1006,
       "step": 5000
     },
     {
+      "epoch": 1.18,
+      "learning_rate": 3.029944838455477e-05,
+      "loss": 1.0509,
       "step": 5500
     },
     {
+      "epoch": 1.29,
+      "learning_rate": 2.850848914678702e-05,
+      "loss": 1.0549,
       "step": 6000
     },
     {
+      "epoch": 1.4,
+      "learning_rate": 2.6717529909019275e-05,
+      "loss": 1.0917,
       "step": 6500
     },
     {
+      "epoch": 1.5,
+      "learning_rate": 2.4926570671251524e-05,
+      "loss": 1.1086,
       "step": 7000
     },
     {
+      "epoch": 1.61,
+      "learning_rate": 2.3135611433483774e-05,
+      "loss": 1.0815,
       "step": 7500
     },
     {
+      "epoch": 1.72,
+      "learning_rate": 2.1344652195716027e-05,
+      "loss": 1.0995,
       "step": 8000
     },
     {
+      "epoch": 1.83,
+      "learning_rate": 1.9553692957948277e-05,
+      "loss": 1.1132,
       "step": 8500
     },
     {
+      "epoch": 1.93,
+      "learning_rate": 1.776273372018053e-05,
+      "loss": 1.075,
       "step": 9000
     },
     {
+      "epoch": 2.04,
+      "learning_rate": 1.5971774482412783e-05,
+      "loss": 1.054,
       "step": 9500
     },
     {
       "epoch": 2.15,
+      "learning_rate": 1.4180815244645032e-05,
+      "loss": 0.9583,
+      "step": 10000
     }
   ],
   "logging_steps": 500,
+  "max_steps": 13959,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
   "save_steps": 10000,
+  "total_flos": 2.0902317391872e+16,
+  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:846a13b1247bfc212e1559f5a61140830e2e39df0b02326620e4db782b0aaf0c
+size 4792