Training in progress, epoch 0

Browse files

Files changed (9) hide show

all_results.json +11 -2
eval_results.json +6 -2
model.safetensors +1 -1
preprocessor_config.json +9 -14
runs/Dec14_15-25-42_bc148a6f3d4e/events.out.tfevents.1702588011.bc148a6f3d4e.66026.1 +3 -0
runs/Dec14_21-09-06_bc148a6f3d4e/events.out.tfevents.1702588166.bc148a6f3d4e.66026.2 +3 -0
train_results.json +8 -0
trainer_state.json +783 -0
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,4 +1,13 @@
 {
-    "eval_accuracy": 0.5844425237683665,
-    "eval_loss": 2.1884803771972656
 }

 {
+    "epoch": 2.99,
+    "eval_accuracy": 0.8155574762316335,
+    "eval_loss": 0.9370825290679932,
+    "eval_runtime": 27.7234,
+    "eval_samples_per_second": 208.669,
+    "eval_steps_per_second": 6.529,
+    "total_flos": 3.964011227564194e+18,
+    "train_loss": 1.7593435168462042,
+    "train_runtime": 1295.0132,
+    "train_samples_per_second": 120.603,
+    "train_steps_per_second": 0.941
 }

eval_results.json CHANGED Viewed

@@ -1,4 +1,8 @@
 {
-    "eval_accuracy": 0.5844425237683665,
-    "eval_loss": 2.1884803771972656
 }

 {
+    "epoch": 2.99,
+    "eval_accuracy": 0.8155574762316335,
+    "eval_loss": 0.9370825290679932,
+    "eval_runtime": 27.7234,
+    "eval_samples_per_second": 208.669,
+    "eval_steps_per_second": 6.529
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14a3ca9e763de67931f5ecefb2b07c513c47a4b80c4e4d75d3deeb7e9a22338c
 size 112253100

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c6fdeeeb42a965a4e293c210f0f393bbaf492dcb3b9063ca69757537f65180f
 size 112253100

preprocessor_config.json CHANGED Viewed

@@ -1,27 +1,22 @@
 {
-  "crop_size": {
-    "height": 224,
-    "width": 224
-  },
-  "do_center_crop": true,
-  "do_convert_rgb": true,
   "do_normalize": true,
   "do_rescale": true,
   "do_resize": true,
   "image_mean": [
-    0.48145466,
-    0.4578275,
-    0.40821073
   ],
-  "image_processor_type": "CLIPImageProcessor",
   "image_std": [
-    0.26862954,
-    0.26130258,
-    0.27577711
   ],
   "resample": 3,
   "rescale_factor": 0.00392156862745098,
   "size": {
-    "shortest_edge": 224
   }
 }

 {
   "do_normalize": true,
   "do_rescale": true,
   "do_resize": true,
   "image_mean": [
+    0.485,
+    0.456,
+    0.406
   ],
+  "image_processor_type": "ViTImageProcessor",
   "image_std": [
+    0.229,
+    0.224,
+    0.225
   ],
   "resample": 3,
   "rescale_factor": 0.00392156862745098,
   "size": {
+    "height": 224,
+    "width": 224
   }
 }

runs/Dec14_15-25-42_bc148a6f3d4e/events.out.tfevents.1702588011.bc148a6f3d4e.66026.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3df2e58879b9f43ade6b924b14ff23a94478377c46312d9b80eb412eceaa30ce
+size 411

runs/Dec14_21-09-06_bc148a6f3d4e/events.out.tfevents.1702588166.bc148a6f3d4e.66026.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f86bd88ac5bd5f85f67dc3cacecc45d1f189628e9943402117b7e0d083c4b8fc
+size 36028

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.99,
+    "total_flos": 3.964011227564194e+18,
+    "train_loss": 1.7593435168462042,
+    "train_runtime": 1295.0132,
+    "train_samples_per_second": 120.603,
+    "train_steps_per_second": 0.941
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,783 @@

+{
+  "best_metric": 0.8155574762316335,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-eurosat/checkpoint-1218",
+  "epoch": 2.994468346650277,
+  "eval_steps": 500,
+  "global_step": 1218,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.098360655737704e-06,
+      "loss": 2.5241,
+      "step": 10
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8.196721311475409e-06,
+      "loss": 2.3898,
+      "step": 20
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.2295081967213116e-05,
+      "loss": 2.4011,
+      "step": 30
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.6393442622950818e-05,
+      "loss": 2.4128,
+      "step": 40
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.0491803278688525e-05,
+      "loss": 2.5282,
+      "step": 50
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 2.459016393442623e-05,
+      "loss": 2.4022,
+      "step": 60
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 2.8688524590163935e-05,
+      "loss": 2.4011,
+      "step": 70
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 3.2786885245901635e-05,
+      "loss": 2.4441,
+      "step": 80
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 3.6885245901639346e-05,
+      "loss": 2.4701,
+      "step": 90
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 4.098360655737705e-05,
+      "loss": 2.3947,
+      "step": 100
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 4.508196721311476e-05,
+      "loss": 2.3731,
+      "step": 110
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 4.918032786885246e-05,
+      "loss": 2.402,
+      "step": 120
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 4.963503649635037e-05,
+      "loss": 2.2692,
+      "step": 130
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 4.9178832116788325e-05,
+      "loss": 2.3917,
+      "step": 140
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 4.872262773722628e-05,
+      "loss": 2.2329,
+      "step": 150
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 4.8266423357664235e-05,
+      "loss": 2.2251,
+      "step": 160
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 4.7810218978102196e-05,
+      "loss": 2.119,
+      "step": 170
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 4.7354014598540144e-05,
+      "loss": 2.1584,
+      "step": 180
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 4.6897810218978106e-05,
+      "loss": 2.2603,
+      "step": 190
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 4.644160583941606e-05,
+      "loss": 2.2187,
+      "step": 200
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 4.5985401459854016e-05,
+      "loss": 2.1734,
+      "step": 210
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 4.552919708029198e-05,
+      "loss": 2.1851,
+      "step": 220
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 4.5072992700729925e-05,
+      "loss": 2.0539,
+      "step": 230
+    },
+    {
+      "epoch": 0.59,
+      "learning_rate": 4.461678832116789e-05,
+      "loss": 2.0854,
+      "step": 240
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.416058394160584e-05,
+      "loss": 2.107,
+      "step": 250
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.3704379562043796e-05,
+      "loss": 2.0371,
+      "step": 260
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.324817518248175e-05,
+      "loss": 2.1036,
+      "step": 270
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.279197080291971e-05,
+      "loss": 2.0236,
+      "step": 280
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 4.233576642335767e-05,
+      "loss": 1.9557,
+      "step": 290
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.187956204379562e-05,
+      "loss": 1.9848,
+      "step": 300
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.1423357664233584e-05,
+      "loss": 1.9344,
+      "step": 310
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.096715328467153e-05,
+      "loss": 2.0378,
+      "step": 320
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.0510948905109494e-05,
+      "loss": 1.9012,
+      "step": 330
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 4.005474452554745e-05,
+      "loss": 1.8865,
+      "step": 340
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 3.95985401459854e-05,
+      "loss": 1.8976,
+      "step": 350
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3.914233576642336e-05,
+      "loss": 1.9119,
+      "step": 360
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.868613138686132e-05,
+      "loss": 1.9407,
+      "step": 370
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.822992700729927e-05,
+      "loss": 1.7041,
+      "step": 380
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.777372262773723e-05,
+      "loss": 1.8431,
+      "step": 390
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 3.7317518248175184e-05,
+      "loss": 1.9174,
+      "step": 400
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.7210025929127053,
+      "eval_loss": 1.3900867700576782,
+      "eval_runtime": 27.5624,
+      "eval_samples_per_second": 209.887,
+      "eval_steps_per_second": 6.567,
+      "step": 406
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.686131386861314e-05,
+      "loss": 1.8769,
+      "step": 410
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 3.64051094890511e-05,
+      "loss": 1.8611,
+      "step": 420
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 3.594890510948905e-05,
+      "loss": 1.7806,
+      "step": 430
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 3.549270072992701e-05,
+      "loss": 1.723,
+      "step": 440
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.5036496350364965e-05,
+      "loss": 1.6738,
+      "step": 450
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 3.458029197080292e-05,
+      "loss": 1.7652,
+      "step": 460
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 3.4124087591240875e-05,
+      "loss": 1.8163,
+      "step": 470
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 3.3667883211678836e-05,
+      "loss": 1.7474,
+      "step": 480
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3.321167883211679e-05,
+      "loss": 1.754,
+      "step": 490
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 3.2755474452554746e-05,
+      "loss": 1.805,
+      "step": 500
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 3.229927007299271e-05,
+      "loss": 1.6809,
+      "step": 510
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 3.1843065693430655e-05,
+      "loss": 1.6914,
+      "step": 520
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 3.138686131386862e-05,
+      "loss": 1.6213,
+      "step": 530
+    },
+    {
+      "epoch": 1.33,
+      "learning_rate": 3.093065693430657e-05,
+      "loss": 1.8014,
+      "step": 540
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 3.0474452554744527e-05,
+      "loss": 1.6069,
+      "step": 550
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 3.0018248175182485e-05,
+      "loss": 1.6734,
+      "step": 560
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 2.9562043795620443e-05,
+      "loss": 1.7384,
+      "step": 570
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 2.9105839416058394e-05,
+      "loss": 1.7237,
+      "step": 580
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 2.8649635036496353e-05,
+      "loss": 1.7187,
+      "step": 590
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 2.8193430656934304e-05,
+      "loss": 1.6708,
+      "step": 600
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 2.7737226277372262e-05,
+      "loss": 1.6979,
+      "step": 610
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.728102189781022e-05,
+      "loss": 1.7762,
+      "step": 620
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 2.6824817518248175e-05,
+      "loss": 1.6503,
+      "step": 630
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 2.6368613138686133e-05,
+      "loss": 1.5918,
+      "step": 640
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 2.591240875912409e-05,
+      "loss": 1.6282,
+      "step": 650
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.5456204379562043e-05,
+      "loss": 1.5736,
+      "step": 660
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 2.5e-05,
+      "loss": 1.5454,
+      "step": 670
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 2.4543795620437956e-05,
+      "loss": 1.6593,
+      "step": 680
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 2.4087591240875914e-05,
+      "loss": 1.5685,
+      "step": 690
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.363138686131387e-05,
+      "loss": 1.5265,
+      "step": 700
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 2.3175182481751824e-05,
+      "loss": 1.5889,
+      "step": 710
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 2.2718978102189782e-05,
+      "loss": 1.5552,
+      "step": 720
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 2.226277372262774e-05,
+      "loss": 1.5238,
+      "step": 730
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 2.1806569343065695e-05,
+      "loss": 1.6708,
+      "step": 740
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 2.135036496350365e-05,
+      "loss": 1.5535,
+      "step": 750
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 2.0894160583941608e-05,
+      "loss": 1.6004,
+      "step": 760
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 2.0437956204379563e-05,
+      "loss": 1.5265,
+      "step": 770
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 1.9981751824817518e-05,
+      "loss": 1.5925,
+      "step": 780
+    },
+    {
+      "epoch": 1.94,
+      "learning_rate": 1.9525547445255476e-05,
+      "loss": 1.513,
+      "step": 790
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 1.906934306569343e-05,
+      "loss": 1.6098,
+      "step": 800
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 1.861313868613139e-05,
+      "loss": 1.5653,
+      "step": 810
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7937770095073465,
+      "eval_loss": 1.035827875137329,
+      "eval_runtime": 28.5917,
+      "eval_samples_per_second": 202.331,
+      "eval_steps_per_second": 6.331,
+      "step": 813
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 1.8156934306569344e-05,
+      "loss": 1.4894,
+      "step": 820
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.7700729927007302e-05,
+      "loss": 1.3743,
+      "step": 830
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 1.7244525547445257e-05,
+      "loss": 1.5641,
+      "step": 840
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 1.678832116788321e-05,
+      "loss": 1.5444,
+      "step": 850
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 1.633211678832117e-05,
+      "loss": 1.514,
+      "step": 860
+    },
+    {
+      "epoch": 2.14,
+      "learning_rate": 1.5875912408759125e-05,
+      "loss": 1.5504,
+      "step": 870
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.541970802919708e-05,
+      "loss": 1.5201,
+      "step": 880
+    },
+    {
+      "epoch": 2.19,
+      "learning_rate": 1.496350364963504e-05,
+      "loss": 1.5385,
+      "step": 890
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 1.4507299270072994e-05,
+      "loss": 1.4317,
+      "step": 900
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.4051094890510949e-05,
+      "loss": 1.4826,
+      "step": 910
+    },
+    {
+      "epoch": 2.26,
+      "learning_rate": 1.3594890510948904e-05,
+      "loss": 1.4028,
+      "step": 920
+    },
+    {
+      "epoch": 2.29,
+      "learning_rate": 1.3138686131386862e-05,
+      "loss": 1.4444,
+      "step": 930
+    },
+    {
+      "epoch": 2.31,
+      "learning_rate": 1.2682481751824818e-05,
+      "loss": 1.4388,
+      "step": 940
+    },
+    {
+      "epoch": 2.34,
+      "learning_rate": 1.2226277372262775e-05,
+      "loss": 1.4685,
+      "step": 950
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.177007299270073e-05,
+      "loss": 1.4684,
+      "step": 960
+    },
+    {
+      "epoch": 2.38,
+      "learning_rate": 1.1313868613138686e-05,
+      "loss": 1.4367,
+      "step": 970
+    },
+    {
+      "epoch": 2.41,
+      "learning_rate": 1.0857664233576643e-05,
+      "loss": 1.4243,
+      "step": 980
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 1.04014598540146e-05,
+      "loss": 1.3886,
+      "step": 990
+    },
+    {
+      "epoch": 2.46,
+      "learning_rate": 9.945255474452556e-06,
+      "loss": 1.4465,
+      "step": 1000
+    },
+    {
+      "epoch": 2.48,
+      "learning_rate": 9.48905109489051e-06,
+      "loss": 1.4956,
+      "step": 1010
+    },
+    {
+      "epoch": 2.51,
+      "learning_rate": 9.032846715328467e-06,
+      "loss": 1.4303,
+      "step": 1020
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 8.576642335766425e-06,
+      "loss": 1.5446,
+      "step": 1030
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 8.12043795620438e-06,
+      "loss": 1.4384,
+      "step": 1040
+    },
+    {
+      "epoch": 2.58,
+      "learning_rate": 7.664233576642336e-06,
+      "loss": 1.406,
+      "step": 1050
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 7.208029197080292e-06,
+      "loss": 1.3875,
+      "step": 1060
+    },
+    {
+      "epoch": 2.63,
+      "learning_rate": 6.751824817518249e-06,
+      "loss": 1.4809,
+      "step": 1070
+    },
+    {
+      "epoch": 2.66,
+      "learning_rate": 6.295620437956205e-06,
+      "loss": 1.4816,
+      "step": 1080
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 5.839416058394161e-06,
+      "loss": 1.4504,
+      "step": 1090
+    },
+    {
+      "epoch": 2.7,
+      "learning_rate": 5.3832116788321165e-06,
+      "loss": 1.3895,
+      "step": 1100
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 4.927007299270074e-06,
+      "loss": 1.3738,
+      "step": 1110
+    },
+    {
+      "epoch": 2.75,
+      "learning_rate": 4.4708029197080295e-06,
+      "loss": 1.4794,
+      "step": 1120
+    },
+    {
+      "epoch": 2.78,
+      "learning_rate": 4.014598540145985e-06,
+      "loss": 1.4486,
+      "step": 1130
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3.5583941605839416e-06,
+      "loss": 1.4103,
+      "step": 1140
+    },
+    {
+      "epoch": 2.83,
+      "learning_rate": 3.102189781021898e-06,
+      "loss": 1.341,
+      "step": 1150
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 2.6459854014598542e-06,
+      "loss": 1.507,
+      "step": 1160
+    },
+    {
+      "epoch": 2.88,
+      "learning_rate": 2.1897810218978103e-06,
+      "loss": 1.4404,
+      "step": 1170
+    },
+    {
+      "epoch": 2.9,
+      "learning_rate": 1.7335766423357664e-06,
+      "loss": 1.5609,
+      "step": 1180
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 1.2773722627737227e-06,
+      "loss": 1.3595,
+      "step": 1190
+    },
+    {
+      "epoch": 2.95,
+      "learning_rate": 8.211678832116789e-07,
+      "loss": 1.3526,
+      "step": 1200
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 3.6496350364963505e-07,
+      "loss": 1.4324,
+      "step": 1210
+    },
+    {
+      "epoch": 2.99,
+      "eval_accuracy": 0.8155574762316335,
+      "eval_loss": 0.9370825290679932,
+      "eval_runtime": 28.5559,
+      "eval_samples_per_second": 202.585,
+      "eval_steps_per_second": 6.338,
+      "step": 1218
+    },
+    {
+      "epoch": 2.99,
+      "step": 1218,
+      "total_flos": 3.964011227564194e+18,
+      "train_loss": 1.7593435168462042,
+      "train_runtime": 1295.0132,
+      "train_samples_per_second": 120.603,
+      "train_steps_per_second": 0.941
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1218,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "total_flos": 3.964011227564194e+18,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec17a337e7134b0cc23e76d04dfd8d88bd4991ed9400fdb08c34caacf1651179
 size 4792

 version https://git-lfs.github.com/spec/v1
+oid sha256:97b817e7cf58621d108aadfeb2f1e40ef5edbacea71e62361ef175c45a4e19ee
 size 4792