🍻 cheers

Browse files

Files changed (6) hide show

README.md +4 -3
all_results.json +10 -10
data/events.out.tfevents.1730611272.07f6fc948a6b.436.3 +3 -0
eval_results.json +5 -5
train_results.json +5 -5
trainer_state.json +717 -1119

README.md CHANGED Viewed

@@ -3,6 +3,7 @@ library_name: transformers
 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
 - generated_from_trainer
 datasets:
 - imagefolder
@@ -23,7 +24,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.7830188679245284
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -33,8 +34,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.1463
-- Accuracy: 0.7830
 ## Model description

 license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
+- image-classification
 - generated_from_trainer
 datasets:
 - imagefolder
     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.6745283018867925
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7452
+- Accuracy: 0.6745
 ## Model description

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 13.0,
-    "eval_accuracy": 0.7793594306049823,
-    "eval_loss": 0.6139788031578064,
-    "eval_runtime": 4.3698,
-    "eval_samples_per_second": 64.304,
-    "eval_steps_per_second": 8.238,
-    "total_flos": 2.5427127414770565e+18,
-    "train_loss": 0.21512354467338007,
-    "train_runtime": 1043.0352,
-    "train_samples_per_second": 31.458,
-    "train_steps_per_second": 1.969
 }

 {
     "epoch": 13.0,
+    "eval_accuracy": 0.6745283018867925,
+    "eval_loss": 0.7452366948127747,
+    "eval_runtime": 2.5059,
+    "eval_samples_per_second": 84.599,
+    "eval_steps_per_second": 10.774,
+    "total_flos": 1.9140864535683072e+18,
+    "train_loss": 0.35688263059153663,
+    "train_runtime": 955.328,
+    "train_samples_per_second": 25.855,
+    "train_steps_per_second": 1.619
 }

data/events.out.tfevents.1730611272.07f6fc948a6b.436.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b63372cd34724660f122424e445f8909de85a62b82dc5b17c298bf39f592829d
+size 411

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 13.0,
-    "eval_accuracy": 0.7793594306049823,
-    "eval_loss": 0.6139788031578064,
-    "eval_runtime": 4.3698,
-    "eval_samples_per_second": 64.304,
-    "eval_steps_per_second": 8.238
 }

 {
     "epoch": 13.0,
+    "eval_accuracy": 0.6745283018867925,
+    "eval_loss": 0.7452366948127747,
+    "eval_runtime": 2.5059,
+    "eval_samples_per_second": 84.599,
+    "eval_steps_per_second": 10.774
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 13.0,
-    "total_flos": 2.5427127414770565e+18,
-    "train_loss": 0.21512354467338007,
-    "train_runtime": 1043.0352,
-    "train_samples_per_second": 31.458,
-    "train_steps_per_second": 1.969
 }

 {
     "epoch": 13.0,
+    "total_flos": 1.9140864535683072e+18,
+    "train_loss": 0.35688263059153663,
+    "train_runtime": 955.328,
+    "train_samples_per_second": 25.855,
+    "train_steps_per_second": 1.619
 }

trainer_state.json CHANGED Viewed

@@ -1,1640 +1,1238 @@
 {
-  "best_metric": 0.6139788031578064,
-  "best_model_checkpoint": "vit-weldclassifyv4/checkpoint-500",
   "epoch": 13.0,
   "eval_steps": 100,
-  "global_step": 2054,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.06329113924050633,
-      "grad_norm": 1.8231099843978882,
-      "learning_rate": 0.00019902629016553067,
-      "loss": 1.238,
       "step": 10
     },
     {
-      "epoch": 0.12658227848101267,
-      "grad_norm": 0.7930148243904114,
-      "learning_rate": 0.00019805258033106136,
-      "loss": 1.2652,
       "step": 20
     },
     {
-      "epoch": 0.189873417721519,
-      "grad_norm": 2.1662611961364746,
-      "learning_rate": 0.00019707887049659202,
-      "loss": 1.1927,
       "step": 30
     },
     {
-      "epoch": 0.25316455696202533,
-      "grad_norm": 0.9586331248283386,
-      "learning_rate": 0.0001961051606621227,
-      "loss": 1.2159,
       "step": 40
     },
     {
-      "epoch": 0.31645569620253167,
-      "grad_norm": 1.0158694982528687,
-      "learning_rate": 0.00019513145082765337,
-      "loss": 1.1697,
       "step": 50
     },
     {
-      "epoch": 0.379746835443038,
-      "grad_norm": 2.5109598636627197,
-      "learning_rate": 0.00019415774099318405,
-      "loss": 1.1731,
       "step": 60
     },
     {
-      "epoch": 0.4430379746835443,
-      "grad_norm": 1.9428660869598389,
-      "learning_rate": 0.0001931840311587147,
-      "loss": 1.0786,
       "step": 70
     },
     {
-      "epoch": 0.5063291139240507,
-      "grad_norm": 1.6625088453292847,
-      "learning_rate": 0.0001922103213242454,
-      "loss": 1.0579,
       "step": 80
     },
     {
-      "epoch": 0.569620253164557,
-      "grad_norm": 2.1774094104766846,
-      "learning_rate": 0.00019123661148977606,
-      "loss": 1.008,
       "step": 90
     },
     {
-      "epoch": 0.6329113924050633,
-      "grad_norm": 2.2633728981018066,
-      "learning_rate": 0.00019026290165530675,
-      "loss": 0.9281,
       "step": 100
     },
     {
-      "epoch": 0.6329113924050633,
-      "eval_accuracy": 0.5907473309608541,
-      "eval_loss": 0.9793357849121094,
-      "eval_runtime": 2.9407,
-      "eval_samples_per_second": 95.555,
-      "eval_steps_per_second": 12.242,
       "step": 100
     },
     {
-      "epoch": 0.6962025316455697,
-      "grad_norm": 1.4851062297821045,
-      "learning_rate": 0.0001892891918208374,
-      "loss": 0.8375,
       "step": 110
     },
     {
-      "epoch": 0.759493670886076,
-      "grad_norm": 3.343125820159912,
-      "learning_rate": 0.00018831548198636807,
-      "loss": 0.9856,
       "step": 120
     },
     {
-      "epoch": 0.8227848101265823,
-      "grad_norm": 1.3608458042144775,
-      "learning_rate": 0.00018734177215189873,
-      "loss": 0.9197,
       "step": 130
     },
     {
-      "epoch": 0.8860759493670886,
-      "grad_norm": 2.313962459564209,
-      "learning_rate": 0.00018636806231742942,
-      "loss": 0.8262,
       "step": 140
     },
     {
-      "epoch": 0.9493670886075949,
-      "grad_norm": 1.8323599100112915,
-      "learning_rate": 0.00018539435248296008,
-      "loss": 1.006,
       "step": 150
     },
     {
-      "epoch": 1.0126582278481013,
-      "grad_norm": 3.7629854679107666,
-      "learning_rate": 0.00018442064264849074,
-      "loss": 1.0289,
       "step": 160
     },
     {
-      "epoch": 1.0759493670886076,
-      "grad_norm": 1.4926854372024536,
-      "learning_rate": 0.00018344693281402142,
-      "loss": 0.7291,
       "step": 170
     },
     {
-      "epoch": 1.139240506329114,
-      "grad_norm": 3.3833086490631104,
-      "learning_rate": 0.00018247322297955209,
-      "loss": 0.8654,
       "step": 180
     },
     {
-      "epoch": 1.2025316455696202,
-      "grad_norm": 3.208197593688965,
-      "learning_rate": 0.00018149951314508277,
-      "loss": 0.685,
       "step": 190
     },
     {
-      "epoch": 1.2658227848101267,
-      "grad_norm": 2.0218262672424316,
-      "learning_rate": 0.00018052580331061343,
-      "loss": 0.6894,
       "step": 200
     },
     {
-      "epoch": 1.2658227848101267,
-      "eval_accuracy": 0.6868327402135231,
-      "eval_loss": 0.7116755843162537,
-      "eval_runtime": 5.624,
-      "eval_samples_per_second": 49.964,
-      "eval_steps_per_second": 6.401,
       "step": 200
     },
     {
-      "epoch": 1.3291139240506329,
-      "grad_norm": 1.8904668092727661,
-      "learning_rate": 0.00017955209347614412,
-      "loss": 0.648,
       "step": 210
     },
     {
-      "epoch": 1.3924050632911391,
-      "grad_norm": 2.065814971923828,
-      "learning_rate": 0.00017857838364167478,
-      "loss": 0.6942,
       "step": 220
     },
     {
-      "epoch": 1.4556962025316456,
-      "grad_norm": 1.779307246208191,
-      "learning_rate": 0.00017760467380720547,
-      "loss": 0.6617,
       "step": 230
     },
     {
-      "epoch": 1.518987341772152,
-      "grad_norm": 4.920161724090576,
-      "learning_rate": 0.00017663096397273613,
-      "loss": 0.7961,
       "step": 240
     },
     {
-      "epoch": 1.5822784810126582,
-      "grad_norm": 2.617550849914551,
-      "learning_rate": 0.00017565725413826682,
-      "loss": 0.623,
       "step": 250
     },
     {
-      "epoch": 1.6455696202531644,
-      "grad_norm": 2.2660183906555176,
-      "learning_rate": 0.00017468354430379748,
-      "loss": 0.706,
       "step": 260
     },
     {
-      "epoch": 1.7088607594936709,
-      "grad_norm": 3.3759207725524902,
-      "learning_rate": 0.00017370983446932816,
-      "loss": 0.6196,
       "step": 270
     },
     {
-      "epoch": 1.7721518987341773,
-      "grad_norm": 2.01643967628479,
-      "learning_rate": 0.00017273612463485882,
-      "loss": 0.6502,
       "step": 280
     },
     {
-      "epoch": 1.8354430379746836,
-      "grad_norm": 3.487635374069214,
-      "learning_rate": 0.00017176241480038948,
-      "loss": 0.7236,
       "step": 290
     },
     {
-      "epoch": 1.8987341772151898,
-      "grad_norm": 2.225860595703125,
-      "learning_rate": 0.00017078870496592017,
-      "loss": 0.6074,
       "step": 300
     },
     {
-      "epoch": 1.8987341772151898,
-      "eval_accuracy": 0.693950177935943,
-      "eval_loss": 0.7030865550041199,
-      "eval_runtime": 2.9563,
-      "eval_samples_per_second": 95.052,
-      "eval_steps_per_second": 12.178,
       "step": 300
     },
     {
-      "epoch": 1.9620253164556962,
-      "grad_norm": 2.5282366275787354,
-      "learning_rate": 0.00016981499513145083,
-      "loss": 0.6951,
       "step": 310
     },
     {
-      "epoch": 2.0253164556962027,
-      "grad_norm": 2.416698932647705,
-      "learning_rate": 0.00016884128529698152,
-      "loss": 0.4789,
       "step": 320
     },
     {
-      "epoch": 2.088607594936709,
-      "grad_norm": 3.2094521522521973,
-      "learning_rate": 0.00016786757546251218,
-      "loss": 0.4443,
       "step": 330
     },
     {
-      "epoch": 2.151898734177215,
-      "grad_norm": 3.365262031555176,
-      "learning_rate": 0.00016689386562804287,
-      "loss": 0.4303,
       "step": 340
     },
     {
-      "epoch": 2.2151898734177213,
-      "grad_norm": 1.8025457859039307,
-      "learning_rate": 0.00016592015579357353,
-      "loss": 0.4212,
       "step": 350
     },
     {
-      "epoch": 2.278481012658228,
-      "grad_norm": 2.566657304763794,
-      "learning_rate": 0.0001649464459591042,
-      "loss": 0.491,
       "step": 360
     },
     {
-      "epoch": 2.3417721518987342,
-      "grad_norm": 1.4255659580230713,
-      "learning_rate": 0.00016397273612463488,
-      "loss": 0.4005,
       "step": 370
     },
     {
-      "epoch": 2.4050632911392404,
-      "grad_norm": 1.4234439134597778,
-      "learning_rate": 0.00016299902629016554,
-      "loss": 0.3792,
       "step": 380
     },
     {
-      "epoch": 2.4683544303797467,
-      "grad_norm": 3.924708604812622,
-      "learning_rate": 0.0001620253164556962,
-      "loss": 0.4056,
       "step": 390
     },
     {
-      "epoch": 2.5316455696202533,
-      "grad_norm": 3.877371072769165,
-      "learning_rate": 0.00016105160662122688,
-      "loss": 0.5389,
       "step": 400
     },
     {
-      "epoch": 2.5316455696202533,
-      "eval_accuracy": 0.7330960854092526,
-      "eval_loss": 0.6998230218887329,
-      "eval_runtime": 3.6859,
-      "eval_samples_per_second": 76.237,
-      "eval_steps_per_second": 9.767,
       "step": 400
     },
     {
-      "epoch": 2.5949367088607596,
-      "grad_norm": 4.078298091888428,
-      "learning_rate": 0.00016007789678675754,
-      "loss": 0.5042,
       "step": 410
     },
     {
-      "epoch": 2.6582278481012658,
-      "grad_norm": 2.0867278575897217,
-      "learning_rate": 0.00015910418695228823,
-      "loss": 0.674,
       "step": 420
     },
     {
-      "epoch": 2.721518987341772,
-      "grad_norm": 4.390700340270996,
-      "learning_rate": 0.0001581304771178189,
-      "loss": 0.5261,
       "step": 430
     },
     {
-      "epoch": 2.7848101265822782,
-      "grad_norm": 3.191239833831787,
-      "learning_rate": 0.00015715676728334955,
-      "loss": 0.4011,
       "step": 440
     },
     {
-      "epoch": 2.848101265822785,
-      "grad_norm": 0.9980124235153198,
-      "learning_rate": 0.00015618305744888024,
-      "loss": 0.3694,
       "step": 450
     },
     {
-      "epoch": 2.911392405063291,
-      "grad_norm": 2.584527015686035,
-      "learning_rate": 0.0001552093476144109,
-      "loss": 0.4619,
       "step": 460
     },
     {
-      "epoch": 2.9746835443037973,
-      "grad_norm": 2.5247104167938232,
-      "learning_rate": 0.0001542356377799416,
-      "loss": 0.3618,
       "step": 470
     },
     {
-      "epoch": 3.037974683544304,
-      "grad_norm": 3.4078636169433594,
-      "learning_rate": 0.00015326192794547225,
-      "loss": 0.3053,
       "step": 480
     },
     {
-      "epoch": 3.1012658227848102,
-      "grad_norm": 0.3695339858531952,
-      "learning_rate": 0.00015228821811100294,
-      "loss": 0.1686,
       "step": 490
     },
     {
-      "epoch": 3.1645569620253164,
-      "grad_norm": 2.54807186126709,
-      "learning_rate": 0.0001513145082765336,
-      "loss": 0.2922,
       "step": 500
     },
     {
-      "epoch": 3.1645569620253164,
-      "eval_accuracy": 0.7793594306049823,
-      "eval_loss": 0.6139788031578064,
-      "eval_runtime": 3.2606,
-      "eval_samples_per_second": 86.179,
-      "eval_steps_per_second": 11.041,
       "step": 500
     },
     {
-      "epoch": 3.2278481012658227,
-      "grad_norm": 2.1469414234161377,
-      "learning_rate": 0.00015034079844206428,
-      "loss": 0.1459,
       "step": 510
     },
     {
-      "epoch": 3.291139240506329,
-      "grad_norm": 2.7631657123565674,
-      "learning_rate": 0.00014936708860759494,
-      "loss": 0.2772,
       "step": 520
     },
     {
-      "epoch": 3.3544303797468356,
-      "grad_norm": 1.3479973077774048,
-      "learning_rate": 0.00014839337877312563,
-      "loss": 0.2665,
       "step": 530
     },
     {
-      "epoch": 3.4177215189873418,
-      "grad_norm": 0.4051523506641388,
-      "learning_rate": 0.0001474196689386563,
-      "loss": 0.2579,
       "step": 540
     },
     {
-      "epoch": 3.481012658227848,
-      "grad_norm": 3.5712709426879883,
-      "learning_rate": 0.00014644595910418698,
-      "loss": 0.2286,
       "step": 550
     },
     {
-      "epoch": 3.5443037974683547,
-      "grad_norm": 7.3584418296813965,
-      "learning_rate": 0.00014547224926971764,
-      "loss": 0.1577,
       "step": 560
     },
     {
-      "epoch": 3.607594936708861,
-      "grad_norm": 3.242455005645752,
-      "learning_rate": 0.0001444985394352483,
-      "loss": 0.2248,
       "step": 570
     },
     {
-      "epoch": 3.670886075949367,
-      "grad_norm": 2.749756336212158,
-      "learning_rate": 0.000143524829600779,
-      "loss": 0.242,
       "step": 580
     },
     {
-      "epoch": 3.7341772151898733,
-      "grad_norm": 5.646878719329834,
-      "learning_rate": 0.00014255111976630965,
-      "loss": 0.2622,
       "step": 590
     },
     {
-      "epoch": 3.7974683544303796,
-      "grad_norm": 1.418591856956482,
-      "learning_rate": 0.00014157740993184033,
-      "loss": 0.2661,
       "step": 600
     },
     {
-      "epoch": 3.7974683544303796,
-      "eval_accuracy": 0.7117437722419929,
-      "eval_loss": 0.8140489459037781,
-      "eval_runtime": 3.8296,
-      "eval_samples_per_second": 73.376,
-      "eval_steps_per_second": 9.4,
       "step": 600
     },
     {
-      "epoch": 3.8607594936708862,
-      "grad_norm": 3.7535617351531982,
-      "learning_rate": 0.000140603700097371,
-      "loss": 0.3347,
       "step": 610
     },
     {
-      "epoch": 3.9240506329113924,
-      "grad_norm": 3.35208797454834,
-      "learning_rate": 0.00013962999026290165,
-      "loss": 0.2483,
       "step": 620
     },
     {
-      "epoch": 3.9873417721518987,
-      "grad_norm": 5.050980567932129,
-      "learning_rate": 0.00013865628042843232,
-      "loss": 0.3502,
       "step": 630
     },
     {
-      "epoch": 4.050632911392405,
-      "grad_norm": 3.208113193511963,
-      "learning_rate": 0.000137682570593963,
-      "loss": 0.1731,
       "step": 640
     },
     {
-      "epoch": 4.113924050632911,
-      "grad_norm": 1.6071431636810303,
-      "learning_rate": 0.00013670886075949366,
-      "loss": 0.2249,
       "step": 650
     },
     {
-      "epoch": 4.177215189873418,
-      "grad_norm": 4.170581817626953,
-      "learning_rate": 0.00013573515092502435,
-      "loss": 0.2121,
       "step": 660
     },
     {
-      "epoch": 4.2405063291139244,
-      "grad_norm": 2.5262327194213867,
-      "learning_rate": 0.000134761441090555,
-      "loss": 0.1614,
       "step": 670
     },
     {
-      "epoch": 4.30379746835443,
-      "grad_norm": 3.41585373878479,
-      "learning_rate": 0.0001337877312560857,
-      "loss": 0.1355,
       "step": 680
     },
     {
-      "epoch": 4.367088607594937,
-      "grad_norm": 0.5682180523872375,
-      "learning_rate": 0.00013281402142161636,
-      "loss": 0.1756,
       "step": 690
     },
     {
-      "epoch": 4.430379746835443,
-      "grad_norm": 7.918303966522217,
-      "learning_rate": 0.00013184031158714705,
-      "loss": 0.1547,
       "step": 700
     },
     {
-      "epoch": 4.430379746835443,
-      "eval_accuracy": 0.7188612099644128,
-      "eval_loss": 0.858184278011322,
-      "eval_runtime": 2.8445,
-      "eval_samples_per_second": 98.788,
-      "eval_steps_per_second": 12.656,
       "step": 700
     },
     {
-      "epoch": 4.493670886075949,
-      "grad_norm": 0.23097099363803864,
-      "learning_rate": 0.0001308666017526777,
-      "loss": 0.1554,
       "step": 710
     },
     {
-      "epoch": 4.556962025316456,
-      "grad_norm": 0.948228657245636,
-      "learning_rate": 0.00012989289191820837,
-      "loss": 0.1475,
       "step": 720
     },
     {
-      "epoch": 4.620253164556962,
-      "grad_norm": 4.432514667510986,
-      "learning_rate": 0.00012891918208373905,
-      "loss": 0.248,
       "step": 730
     },
     {
-      "epoch": 4.6835443037974684,
-      "grad_norm": 1.4464466571807861,
-      "learning_rate": 0.00012794547224926971,
-      "loss": 0.1209,
       "step": 740
     },
     {
-      "epoch": 4.746835443037975,
-      "grad_norm": 1.1032408475875854,
-      "learning_rate": 0.0001269717624148004,
-      "loss": 0.1258,
       "step": 750
     },
     {
-      "epoch": 4.810126582278481,
-      "grad_norm": 4.464413166046143,
-      "learning_rate": 0.00012599805258033106,
-      "loss": 0.1769,
       "step": 760
     },
     {
-      "epoch": 4.8734177215189876,
-      "grad_norm": 4.2749738693237305,
-      "learning_rate": 0.00012502434274586175,
-      "loss": 0.1222,
       "step": 770
     },
     {
-      "epoch": 4.936708860759493,
-      "grad_norm": 5.434940814971924,
-      "learning_rate": 0.0001240506329113924,
-      "loss": 0.1473,
       "step": 780
     },
     {
-      "epoch": 5.0,
-      "grad_norm": 0.17561954259872437,
-      "learning_rate": 0.0001230769230769231,
-      "loss": 0.1127,
       "step": 790
     },
     {
-      "epoch": 5.063291139240507,
-      "grad_norm": 4.6776442527771,
-      "learning_rate": 0.00012210321324245376,
-      "loss": 0.1047,
       "step": 800
     },
     {
-      "epoch": 5.063291139240507,
-      "eval_accuracy": 0.800711743772242,
-      "eval_loss": 0.7366448640823364,
-      "eval_runtime": 2.9584,
-      "eval_samples_per_second": 94.983,
-      "eval_steps_per_second": 12.169,
       "step": 800
     },
     {
-      "epoch": 5.1265822784810124,
-      "grad_norm": 0.8573622703552246,
-      "learning_rate": 0.00012112950340798443,
-      "loss": 0.0739,
       "step": 810
     },
     {
-      "epoch": 5.189873417721519,
-      "grad_norm": 0.6034272909164429,
-      "learning_rate": 0.00012015579357351509,
-      "loss": 0.06,
       "step": 820
     },
     {
-      "epoch": 5.253164556962025,
-      "grad_norm": 0.07069756090641022,
-      "learning_rate": 0.00011918208373904578,
-      "loss": 0.0496,
       "step": 830
     },
     {
-      "epoch": 5.3164556962025316,
-      "grad_norm": 0.3019968867301941,
-      "learning_rate": 0.00011820837390457644,
-      "loss": 0.0825,
       "step": 840
     },
     {
-      "epoch": 5.379746835443038,
-      "grad_norm": 0.38130983710289,
-      "learning_rate": 0.0001172346640701071,
-      "loss": 0.0706,
       "step": 850
     },
     {
-      "epoch": 5.443037974683544,
-      "grad_norm": 0.086518295109272,
-      "learning_rate": 0.00011626095423563779,
-      "loss": 0.0317,
       "step": 860
     },
     {
-      "epoch": 5.506329113924051,
-      "grad_norm": 3.27998948097229,
-      "learning_rate": 0.00011528724440116845,
-      "loss": 0.0563,
       "step": 870
     },
     {
-      "epoch": 5.569620253164557,
-      "grad_norm": 0.3357122242450714,
-      "learning_rate": 0.00011431353456669914,
-      "loss": 0.0963,
       "step": 880
     },
     {
-      "epoch": 5.632911392405063,
-      "grad_norm": 4.3751373291015625,
-      "learning_rate": 0.0001133398247322298,
-      "loss": 0.0903,
       "step": 890
     },
     {
-      "epoch": 5.69620253164557,
-      "grad_norm": 4.348201751708984,
-      "learning_rate": 0.00011236611489776048,
-      "loss": 0.0672,
       "step": 900
     },
     {
-      "epoch": 5.69620253164557,
-      "eval_accuracy": 0.7366548042704626,
-      "eval_loss": 1.0770440101623535,
-      "eval_runtime": 3.7673,
-      "eval_samples_per_second": 74.589,
-      "eval_steps_per_second": 9.556,
       "step": 900
     },
     {
-      "epoch": 5.759493670886076,
-      "grad_norm": 0.5488149523735046,
-      "learning_rate": 0.00011139240506329114,
-      "loss": 0.1904,
       "step": 910
     },
     {
-      "epoch": 5.822784810126582,
-      "grad_norm": 0.07205292582511902,
-      "learning_rate": 0.00011041869522882182,
-      "loss": 0.0929,
       "step": 920
     },
     {
-      "epoch": 5.886075949367089,
-      "grad_norm": 4.9658002853393555,
-      "learning_rate": 0.00010944498539435248,
-      "loss": 0.1066,
       "step": 930
     },
     {
-      "epoch": 5.949367088607595,
-      "grad_norm": 9.347110748291016,
-      "learning_rate": 0.00010847127555988317,
-      "loss": 0.081,
       "step": 940
     },
     {
-      "epoch": 6.012658227848101,
-      "grad_norm": 0.12258296459913254,
-      "learning_rate": 0.00010749756572541383,
-      "loss": 0.0277,
       "step": 950
     },
     {
-      "epoch": 6.075949367088608,
-      "grad_norm": 0.06232326850295067,
-      "learning_rate": 0.00010652385589094451,
-      "loss": 0.0103,
       "step": 960
     },
     {
-      "epoch": 6.139240506329114,
-      "grad_norm": 0.07464442402124405,
-      "learning_rate": 0.00010555014605647517,
-      "loss": 0.0557,
       "step": 970
     },
     {
-      "epoch": 6.2025316455696204,
-      "grad_norm": 9.516839027404785,
-      "learning_rate": 0.00010457643622200586,
-      "loss": 0.0998,
       "step": 980
     },
     {
-      "epoch": 6.265822784810126,
-      "grad_norm": 4.102126598358154,
-      "learning_rate": 0.00010360272638753652,
-      "loss": 0.102,
       "step": 990
     },
     {
-      "epoch": 6.329113924050633,
-      "grad_norm": 12.039372444152832,
-      "learning_rate": 0.00010262901655306718,
-      "loss": 0.0316,
       "step": 1000
     },
     {
-      "epoch": 6.329113924050633,
-      "eval_accuracy": 0.8078291814946619,
-      "eval_loss": 0.7480723857879639,
-      "eval_runtime": 3.2804,
-      "eval_samples_per_second": 85.659,
-      "eval_steps_per_second": 10.974,
       "step": 1000
     },
     {
-      "epoch": 6.3924050632911396,
-      "grad_norm": 0.04922656714916229,
-      "learning_rate": 0.00010165530671859787,
-      "loss": 0.0443,
       "step": 1010
     },
     {
-      "epoch": 6.455696202531645,
-      "grad_norm": 0.2317192703485489,
-      "learning_rate": 0.00010068159688412853,
-      "loss": 0.02,
       "step": 1020
     },
     {
-      "epoch": 6.518987341772152,
-      "grad_norm": 0.05073447898030281,
-      "learning_rate": 9.970788704965922e-05,
-      "loss": 0.0171,
       "step": 1030
     },
     {
-      "epoch": 6.582278481012658,
-      "grad_norm": 5.737843036651611,
-      "learning_rate": 9.873417721518988e-05,
-      "loss": 0.1484,
       "step": 1040
     },
     {
-      "epoch": 6.6455696202531644,
-      "grad_norm": 3.3463170528411865,
-      "learning_rate": 9.776046738072055e-05,
-      "loss": 0.0879,
       "step": 1050
     },
     {
-      "epoch": 6.708860759493671,
-      "grad_norm": 0.06163879111409187,
-      "learning_rate": 9.678675754625121e-05,
-      "loss": 0.0119,
       "step": 1060
     },
     {
-      "epoch": 6.772151898734177,
-      "grad_norm": 0.6712504625320435,
-      "learning_rate": 9.581304771178188e-05,
-      "loss": 0.1082,
       "step": 1070
     },
     {
-      "epoch": 6.8354430379746836,
-      "grad_norm": 3.0736191272735596,
-      "learning_rate": 9.483933787731256e-05,
-      "loss": 0.1088,
       "step": 1080
     },
     {
-      "epoch": 6.89873417721519,
-      "grad_norm": 0.5992501974105835,
-      "learning_rate": 9.386562804284323e-05,
-      "loss": 0.1101,
       "step": 1090
     },
     {
-      "epoch": 6.962025316455696,
-      "grad_norm": 0.10351633280515671,
-      "learning_rate": 9.28919182083739e-05,
-      "loss": 0.0367,
       "step": 1100
     },
     {
-      "epoch": 6.962025316455696,
-      "eval_accuracy": 0.797153024911032,
-      "eval_loss": 0.8765729665756226,
-      "eval_runtime": 2.8804,
-      "eval_samples_per_second": 97.557,
-      "eval_steps_per_second": 12.498,
       "step": 1100
     },
     {
-      "epoch": 7.025316455696203,
-      "grad_norm": 0.4222586154937744,
-      "learning_rate": 9.191820837390458e-05,
-      "loss": 0.0135,
       "step": 1110
     },
     {
-      "epoch": 7.0886075949367084,
-      "grad_norm": 6.298471927642822,
-      "learning_rate": 9.094449853943525e-05,
-      "loss": 0.0173,
       "step": 1120
     },
     {
-      "epoch": 7.151898734177215,
-      "grad_norm": 0.04971346631646156,
-      "learning_rate": 8.997078870496593e-05,
-      "loss": 0.0445,
       "step": 1130
     },
     {
-      "epoch": 7.215189873417722,
-      "grad_norm": 0.0970793217420578,
-      "learning_rate": 8.89970788704966e-05,
-      "loss": 0.0434,
       "step": 1140
     },
     {
-      "epoch": 7.2784810126582276,
-      "grad_norm": 0.23834434151649475,
-      "learning_rate": 8.802336903602728e-05,
-      "loss": 0.0466,
       "step": 1150
     },
     {
-      "epoch": 7.341772151898734,
-      "grad_norm": 0.13099707663059235,
-      "learning_rate": 8.704965920155794e-05,
-      "loss": 0.0173,
       "step": 1160
     },
     {
-      "epoch": 7.405063291139241,
-      "grad_norm": 0.02944963611662388,
-      "learning_rate": 8.607594936708861e-05,
-      "loss": 0.0286,
       "step": 1170
     },
     {
-      "epoch": 7.468354430379747,
-      "grad_norm": 0.022327905520796776,
-      "learning_rate": 8.510223953261928e-05,
-      "loss": 0.0369,
       "step": 1180
     },
     {
-      "epoch": 7.531645569620253,
-      "grad_norm": 0.05552661046385765,
-      "learning_rate": 8.412852969814996e-05,
-      "loss": 0.0139,
       "step": 1190
     },
     {
-      "epoch": 7.594936708860759,
-      "grad_norm": 0.02235097438097,
-      "learning_rate": 8.315481986368062e-05,
-      "loss": 0.0185,
       "step": 1200
     },
     {
-      "epoch": 7.594936708860759,
-      "eval_accuracy": 0.8078291814946619,
-      "eval_loss": 0.9476400017738342,
-      "eval_runtime": 2.9174,
-      "eval_samples_per_second": 96.318,
-      "eval_steps_per_second": 12.34,
       "step": 1200
     },
     {
-      "epoch": 7.658227848101266,
-      "grad_norm": 0.022338826209306717,
-      "learning_rate": 8.218111002921129e-05,
-      "loss": 0.0069,
       "step": 1210
     },
     {
-      "epoch": 7.7215189873417724,
-      "grad_norm": 8.107586860656738,
-      "learning_rate": 8.120740019474197e-05,
-      "loss": 0.0201,
       "step": 1220
     },
     {
-      "epoch": 7.784810126582278,
-      "grad_norm": 0.02159648947417736,
-      "learning_rate": 8.023369036027264e-05,
-      "loss": 0.0054,
       "step": 1230
     },
     {
-      "epoch": 7.848101265822785,
-      "grad_norm": 0.026178089901804924,
-      "learning_rate": 7.925998052580331e-05,
-      "loss": 0.0074,
       "step": 1240
     },
     {
-      "epoch": 7.911392405063291,
-      "grad_norm": 0.027682237327098846,
-      "learning_rate": 7.828627069133399e-05,
-      "loss": 0.0081,
       "step": 1250
     },
     {
-      "epoch": 7.974683544303797,
-      "grad_norm": 0.022958675399422646,
-      "learning_rate": 7.731256085686466e-05,
-      "loss": 0.0169,
       "step": 1260
     },
     {
-      "epoch": 8.037974683544304,
-      "grad_norm": 0.020896993577480316,
-      "learning_rate": 7.633885102239534e-05,
-      "loss": 0.0048,
       "step": 1270
     },
     {
-      "epoch": 8.10126582278481,
-      "grad_norm": 0.02698768861591816,
-      "learning_rate": 7.536514118792601e-05,
-      "loss": 0.0076,
       "step": 1280
     },
     {
-      "epoch": 8.164556962025316,
-      "grad_norm": 0.022491389885544777,
-      "learning_rate": 7.439143135345667e-05,
-      "loss": 0.019,
       "step": 1290
     },
     {
-      "epoch": 8.227848101265822,
-      "grad_norm": 0.02103598043322563,
-      "learning_rate": 7.341772151898734e-05,
-      "loss": 0.0254,
       "step": 1300
     },
     {
-      "epoch": 8.227848101265822,
-      "eval_accuracy": 0.7935943060498221,
-      "eval_loss": 1.0394294261932373,
-      "eval_runtime": 2.9667,
-      "eval_samples_per_second": 94.718,
-      "eval_steps_per_second": 12.135,
       "step": 1300
     },
     {
-      "epoch": 8.291139240506329,
-      "grad_norm": 0.0190192349255085,
-      "learning_rate": 7.244401168451802e-05,
-      "loss": 0.0046,
       "step": 1310
     },
     {
-      "epoch": 8.354430379746836,
-      "grad_norm": 8.76252555847168,
-      "learning_rate": 7.147030185004869e-05,
-      "loss": 0.019,
       "step": 1320
     },
     {
-      "epoch": 8.417721518987342,
-      "grad_norm": 0.019229834899306297,
-      "learning_rate": 7.049659201557937e-05,
-      "loss": 0.0037,
       "step": 1330
     },
     {
-      "epoch": 8.481012658227849,
-      "grad_norm": 0.018845034763216972,
-      "learning_rate": 6.952288218111003e-05,
-      "loss": 0.0038,
       "step": 1340
     },
     {
-      "epoch": 8.544303797468354,
-      "grad_norm": 0.016525857150554657,
-      "learning_rate": 6.85491723466407e-05,
-      "loss": 0.0036,
       "step": 1350
     },
     {
-      "epoch": 8.60759493670886,
-      "grad_norm": 0.02218289114534855,
-      "learning_rate": 6.757546251217137e-05,
-      "loss": 0.0035,
       "step": 1360
     },
     {
-      "epoch": 8.670886075949367,
-      "grad_norm": 0.016638299450278282,
-      "learning_rate": 6.660175267770205e-05,
-      "loss": 0.0034,
       "step": 1370
     },
     {
-      "epoch": 8.734177215189874,
-      "grad_norm": 0.01862148381769657,
-      "learning_rate": 6.562804284323272e-05,
-      "loss": 0.0034,
       "step": 1380
     },
     {
-      "epoch": 8.79746835443038,
-      "grad_norm": 0.01760050840675831,
-      "learning_rate": 6.46543330087634e-05,
-      "loss": 0.0037,
       "step": 1390
     },
     {
-      "epoch": 8.860759493670885,
-      "grad_norm": 0.015400604344904423,
-      "learning_rate": 6.368062317429407e-05,
-      "loss": 0.0035,
       "step": 1400
     },
     {
-      "epoch": 8.860759493670885,
-      "eval_accuracy": 0.8256227758007118,
-      "eval_loss": 0.9603848457336426,
-      "eval_runtime": 2.9345,
-      "eval_samples_per_second": 95.756,
-      "eval_steps_per_second": 12.268,
       "step": 1400
     },
     {
-      "epoch": 8.924050632911392,
-      "grad_norm": 0.015519515611231327,
-      "learning_rate": 6.270691333982473e-05,
-      "loss": 0.0032,
       "step": 1410
     },
     {
-      "epoch": 8.987341772151899,
-      "grad_norm": 0.019378239288926125,
-      "learning_rate": 6.17332035053554e-05,
-      "loss": 0.0286,
       "step": 1420
     },
     {
-      "epoch": 9.050632911392405,
-      "grad_norm": 0.017819711938500404,
-      "learning_rate": 6.0759493670886084e-05,
-      "loss": 0.0032,
       "step": 1430
     },
     {
-      "epoch": 9.113924050632912,
-      "grad_norm": 0.0265274066478014,
-      "learning_rate": 5.978578383641675e-05,
-      "loss": 0.0033,
       "step": 1440
     },
     {
-      "epoch": 9.177215189873417,
-      "grad_norm": 0.018209749832749367,
-      "learning_rate": 5.8812074001947425e-05,
-      "loss": 0.003,
       "step": 1450
     },
     {
-      "epoch": 9.240506329113924,
-      "grad_norm": 0.19067148864269257,
-      "learning_rate": 5.78383641674781e-05,
-      "loss": 0.0037,
       "step": 1460
     },
     {
-      "epoch": 9.30379746835443,
-      "grad_norm": 0.014196806587278843,
-      "learning_rate": 5.686465433300877e-05,
-      "loss": 0.0174,
       "step": 1470
     },
     {
-      "epoch": 9.367088607594937,
-      "grad_norm": 0.01469396986067295,
-      "learning_rate": 5.589094449853943e-05,
-      "loss": 0.0032,
       "step": 1480
     },
     {
-      "epoch": 9.430379746835444,
-      "grad_norm": 0.014591199345886707,
-      "learning_rate": 5.491723466407011e-05,
-      "loss": 0.0211,
       "step": 1490
     },
     {
-      "epoch": 9.49367088607595,
-      "grad_norm": 0.01651841588318348,
-      "learning_rate": 5.394352482960078e-05,
-      "loss": 0.0028,
       "step": 1500
     },
     {
-      "epoch": 9.49367088607595,
-      "eval_accuracy": 0.8149466192170819,
-      "eval_loss": 1.0136470794677734,
-      "eval_runtime": 4.4372,
-      "eval_samples_per_second": 63.328,
-      "eval_steps_per_second": 8.113,
       "step": 1500
     },
     {
-      "epoch": 9.556962025316455,
-      "grad_norm": 0.013669743202626705,
-      "learning_rate": 5.296981499513145e-05,
-      "loss": 0.0027,
       "step": 1510
     },
     {
-      "epoch": 9.620253164556962,
-      "grad_norm": 0.013864479027688503,
-      "learning_rate": 5.199610516066212e-05,
-      "loss": 0.0028,
       "step": 1520
     },
     {
-      "epoch": 9.683544303797468,
-      "grad_norm": 0.013118638657033443,
-      "learning_rate": 5.1022395326192795e-05,
-      "loss": 0.0038,
       "step": 1530
     },
     {
-      "epoch": 9.746835443037975,
-      "grad_norm": 0.015414089895784855,
-      "learning_rate": 5.004868549172347e-05,
-      "loss": 0.0028,
       "step": 1540
     },
-    {
-      "epoch": 9.810126582278482,
-      "grad_norm": 0.013694948516786098,
-      "learning_rate": 4.907497565725414e-05,
-      "loss": 0.0061,
-      "step": 1550
-    },
-    {
-      "epoch": 9.873417721518987,
-      "grad_norm": 0.013068972155451775,
-      "learning_rate": 4.810126582278481e-05,
-      "loss": 0.0028,
-      "step": 1560
-    },
-    {
-      "epoch": 9.936708860759493,
-      "grad_norm": 0.013739065267145634,
-      "learning_rate": 4.7127555988315484e-05,
-      "loss": 0.0027,
-      "step": 1570
-    },
-    {
-      "epoch": 10.0,
-      "grad_norm": 0.014148131012916565,
-      "learning_rate": 4.615384615384616e-05,
-      "loss": 0.0027,
-      "step": 1580
-    },
-    {
-      "epoch": 10.063291139240507,
-      "grad_norm": 0.014314244501292706,
-      "learning_rate": 4.5180136319376825e-05,
-      "loss": 0.0026,
-      "step": 1590
-    },
-    {
-      "epoch": 10.126582278481013,
-      "grad_norm": 0.012181580066680908,
-      "learning_rate": 4.42064264849075e-05,
-      "loss": 0.0026,
-      "step": 1600
-    },
-    {
-      "epoch": 10.126582278481013,
-      "eval_accuracy": 0.8220640569395018,
-      "eval_loss": 1.00938880443573,
-      "eval_runtime": 3.7407,
-      "eval_samples_per_second": 75.12,
-      "eval_steps_per_second": 9.624,
-      "step": 1600
-    },
-    {
-      "epoch": 10.189873417721518,
-      "grad_norm": 0.014514009468257427,
-      "learning_rate": 4.323271665043817e-05,
-      "loss": 0.0025,
-      "step": 1610
-    },
-    {
-      "epoch": 10.253164556962025,
-      "grad_norm": 0.013074631802737713,
-      "learning_rate": 4.225900681596884e-05,
-      "loss": 0.0026,
-      "step": 1620
-    },
-    {
-      "epoch": 10.316455696202532,
-      "grad_norm": 0.012750120833516121,
-      "learning_rate": 4.1285296981499514e-05,
-      "loss": 0.0026,
-      "step": 1630
-    },
-    {
-      "epoch": 10.379746835443038,
-      "grad_norm": 0.011241636238992214,
-      "learning_rate": 4.031158714703019e-05,
-      "loss": 0.0023,
-      "step": 1640
-    },
-    {
-      "epoch": 10.443037974683545,
-      "grad_norm": 0.011269092559814453,
-      "learning_rate": 3.933787731256086e-05,
-      "loss": 0.0023,
-      "step": 1650
-    },
-    {
-      "epoch": 10.50632911392405,
-      "grad_norm": 0.011306311935186386,
-      "learning_rate": 3.836416747809153e-05,
-      "loss": 0.0026,
-      "step": 1660
-    },
-    {
-      "epoch": 10.569620253164556,
-      "grad_norm": 0.012098881416022778,
-      "learning_rate": 3.73904576436222e-05,
-      "loss": 0.0025,
-      "step": 1670
-    },
-    {
-      "epoch": 10.632911392405063,
-      "grad_norm": 0.013847197405993938,
-      "learning_rate": 3.641674780915288e-05,
-      "loss": 0.0025,
-      "step": 1680
-    },
-    {
-      "epoch": 10.69620253164557,
-      "grad_norm": 0.011289476417005062,
-      "learning_rate": 3.5443037974683544e-05,
-      "loss": 0.0024,
-      "step": 1690
-    },
-    {
-      "epoch": 10.759493670886076,
-      "grad_norm": 0.012470747344195843,
-      "learning_rate": 3.446932814021422e-05,
-      "loss": 0.0024,
-      "step": 1700
-    },
-    {
-      "epoch": 10.759493670886076,
-      "eval_accuracy": 0.8291814946619217,
-      "eval_loss": 1.0214886665344238,
-      "eval_runtime": 4.4027,
-      "eval_samples_per_second": 63.824,
-      "eval_steps_per_second": 8.177,
-      "step": 1700
-    },
-    {
-      "epoch": 10.822784810126583,
-      "grad_norm": 0.011075363494455814,
-      "learning_rate": 3.349561830574489e-05,
-      "loss": 0.0023,
-      "step": 1710
-    },
-    {
-      "epoch": 10.886075949367088,
-      "grad_norm": 0.0110908392816782,
-      "learning_rate": 3.2521908471275565e-05,
-      "loss": 0.0024,
-      "step": 1720
-    },
-    {
-      "epoch": 10.949367088607595,
-      "grad_norm": 0.01047087088227272,
-      "learning_rate": 3.154819863680623e-05,
-      "loss": 0.0024,
-      "step": 1730
-    },
-    {
-      "epoch": 11.012658227848101,
-      "grad_norm": 0.010718494653701782,
-      "learning_rate": 3.0574488802336906e-05,
-      "loss": 0.0021,
-      "step": 1740
-    },
-    {
-      "epoch": 11.075949367088608,
-      "grad_norm": 0.011001325212419033,
-      "learning_rate": 2.9600778967867577e-05,
-      "loss": 0.0024,
-      "step": 1750
-    },
-    {
-      "epoch": 11.139240506329115,
-      "grad_norm": 0.012532955966889858,
-      "learning_rate": 2.8627069133398247e-05,
-      "loss": 0.0024,
-      "step": 1760
-    },
-    {
-      "epoch": 11.20253164556962,
-      "grad_norm": 0.011483966372907162,
-      "learning_rate": 2.765335929892892e-05,
-      "loss": 0.0022,
-      "step": 1770
-    },
-    {
-      "epoch": 11.265822784810126,
-      "grad_norm": 0.01143474318087101,
-      "learning_rate": 2.6679649464459595e-05,
-      "loss": 0.0022,
-      "step": 1780
-    },
-    {
-      "epoch": 11.329113924050633,
-      "grad_norm": 0.01154111884534359,
-      "learning_rate": 2.5705939629990266e-05,
-      "loss": 0.0023,
-      "step": 1790
-    },
-    {
-      "epoch": 11.39240506329114,
-      "grad_norm": 0.011763243936002254,
-      "learning_rate": 2.4732229795520936e-05,
-      "loss": 0.0024,
-      "step": 1800
-    },
-    {
-      "epoch": 11.39240506329114,
-      "eval_accuracy": 0.8291814946619217,
-      "eval_loss": 1.0316418409347534,
-      "eval_runtime": 4.1371,
-      "eval_samples_per_second": 67.921,
-      "eval_steps_per_second": 8.702,
-      "step": 1800
-    },
-    {
-      "epoch": 11.455696202531646,
-      "grad_norm": 0.010971922427415848,
-      "learning_rate": 2.375851996105161e-05,
-      "loss": 0.0021,
-      "step": 1810
-    },
-    {
-      "epoch": 11.518987341772151,
-      "grad_norm": 0.011685609817504883,
-      "learning_rate": 2.278481012658228e-05,
-      "loss": 0.0021,
-      "step": 1820
-    },
-    {
-      "epoch": 11.582278481012658,
-      "grad_norm": 0.010025019757449627,
-      "learning_rate": 2.181110029211295e-05,
-      "loss": 0.0021,
-      "step": 1830
-    },
-    {
-      "epoch": 11.645569620253164,
-      "grad_norm": 0.011038082651793957,
-      "learning_rate": 2.0837390457643625e-05,
-      "loss": 0.0022,
-      "step": 1840
-    },
-    {
-      "epoch": 11.708860759493671,
-      "grad_norm": 0.011144652031362057,
-      "learning_rate": 1.9863680623174295e-05,
-      "loss": 0.0023,
-      "step": 1850
-    },
-    {
-      "epoch": 11.772151898734178,
-      "grad_norm": 0.010572181083261967,
-      "learning_rate": 1.8889970788704966e-05,
-      "loss": 0.002,
-      "step": 1860
-    },
-    {
-      "epoch": 11.835443037974684,
-      "grad_norm": 0.012614467181265354,
-      "learning_rate": 1.791626095423564e-05,
-      "loss": 0.0021,
-      "step": 1870
-    },
-    {
-      "epoch": 11.89873417721519,
-      "grad_norm": 0.011049304157495499,
-      "learning_rate": 1.694255111976631e-05,
-      "loss": 0.002,
-      "step": 1880
-    },
-    {
-      "epoch": 11.962025316455696,
-      "grad_norm": 0.011247304268181324,
-      "learning_rate": 1.596884128529698e-05,
-      "loss": 0.0021,
-      "step": 1890
-    },
-    {
-      "epoch": 12.025316455696203,
-      "grad_norm": 0.009822424501180649,
-      "learning_rate": 1.4995131450827655e-05,
-      "loss": 0.002,
-      "step": 1900
-    },
-    {
-      "epoch": 12.025316455696203,
-      "eval_accuracy": 0.8291814946619217,
-      "eval_loss": 1.0391350984573364,
-      "eval_runtime": 4.3594,
-      "eval_samples_per_second": 64.458,
-      "eval_steps_per_second": 8.258,
-      "step": 1900
-    },
-    {
-      "epoch": 12.08860759493671,
-      "grad_norm": 0.009912836365401745,
-      "learning_rate": 1.4021421616358327e-05,
-      "loss": 0.0021,
-      "step": 1910
-    },
-    {
-      "epoch": 12.151898734177216,
-      "grad_norm": 0.014617972075939178,
-      "learning_rate": 1.3047711781888997e-05,
-      "loss": 0.002,
-      "step": 1920
-    },
-    {
-      "epoch": 12.215189873417721,
-      "grad_norm": 0.0097211804240942,
-      "learning_rate": 1.207400194741967e-05,
-      "loss": 0.0021,
-      "step": 1930
-    },
-    {
-      "epoch": 12.278481012658228,
-      "grad_norm": 0.012906952761113644,
-      "learning_rate": 1.1100292112950342e-05,
-      "loss": 0.0023,
-      "step": 1940
-    },
-    {
-      "epoch": 12.341772151898734,
-      "grad_norm": 0.010059771127998829,
-      "learning_rate": 1.0126582278481012e-05,
-      "loss": 0.002,
-      "step": 1950
-    },
-    {
-      "epoch": 12.405063291139241,
-      "grad_norm": 0.010056668892502785,
-      "learning_rate": 9.152872444011686e-06,
-      "loss": 0.0022,
-      "step": 1960
-    },
-    {
-      "epoch": 12.468354430379748,
-      "grad_norm": 0.012864183634519577,
-      "learning_rate": 8.179162609542357e-06,
-      "loss": 0.0021,
-      "step": 1970
-    },
-    {
-      "epoch": 12.531645569620252,
-      "grad_norm": 0.011309951543807983,
-      "learning_rate": 7.205452775073028e-06,
-      "loss": 0.0021,
-      "step": 1980
-    },
-    {
-      "epoch": 12.594936708860759,
-      "grad_norm": 0.009780649095773697,
-      "learning_rate": 6.231742940603701e-06,
-      "loss": 0.002,
-      "step": 1990
-    },
-    {
-      "epoch": 12.658227848101266,
-      "grad_norm": 0.011779570952057838,
-      "learning_rate": 5.258033106134372e-06,
-      "loss": 0.0021,
-      "step": 2000
-    },
-    {
-      "epoch": 12.658227848101266,
-      "eval_accuracy": 0.8291814946619217,
-      "eval_loss": 1.0429939031600952,
-      "eval_runtime": 2.9477,
-      "eval_samples_per_second": 95.327,
-      "eval_steps_per_second": 12.213,
-      "step": 2000
-    },
-    {
-      "epoch": 12.721518987341772,
-      "grad_norm": 0.010478339157998562,
-      "learning_rate": 4.284323271665044e-06,
-      "loss": 0.0019,
-      "step": 2010
-    },
-    {
-      "epoch": 12.784810126582279,
-      "grad_norm": 0.009612773545086384,
-      "learning_rate": 3.3106134371957155e-06,
-      "loss": 0.0021,
-      "step": 2020
-    },
-    {
-      "epoch": 12.848101265822784,
-      "grad_norm": 0.010172748006880283,
-      "learning_rate": 2.3369036027263877e-06,
-      "loss": 0.0021,
-      "step": 2030
-    },
-    {
-      "epoch": 12.91139240506329,
-      "grad_norm": 0.009747604839503765,
-      "learning_rate": 1.3631937682570594e-06,
-      "loss": 0.0019,
-      "step": 2040
-    },
-    {
-      "epoch": 12.974683544303797,
-      "grad_norm": 0.010267944075167179,
-      "learning_rate": 3.894839337877313e-07,
-      "loss": 0.0021,
-      "step": 2050
-    },
     {
       "epoch": 13.0,
-      "step": 2054,
-      "total_flos": 2.5427127414770565e+18,
-      "train_loss": 0.21512354467338007,
-      "train_runtime": 1043.0352,
-      "train_samples_per_second": 31.458,
-      "train_steps_per_second": 1.969
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2054,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 13,
   "save_steps": 100,
@@ -1650,7 +1248,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.5427127414770565e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.7452366948127747,
+  "best_model_checkpoint": "vit-weldclassifyv4/checkpoint-400",
   "epoch": 13.0,
   "eval_steps": 100,
+  "global_step": 1547,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08403361344537816,
+      "grad_norm": 1.7778676748275757,
+      "learning_rate": 0.00019870717517776342,
+      "loss": 1.2807,
       "step": 10
     },
     {
+      "epoch": 0.16806722689075632,
+      "grad_norm": 1.3721851110458374,
+      "learning_rate": 0.00019741435035552685,
+      "loss": 1.187,
       "step": 20
     },
     {
+      "epoch": 0.25210084033613445,
+      "grad_norm": 0.4043492376804352,
+      "learning_rate": 0.00019612152553329023,
+      "loss": 1.2471,
       "step": 30
     },
     {
+      "epoch": 0.33613445378151263,
+      "grad_norm": 1.9244325160980225,
+      "learning_rate": 0.00019482870071105366,
+      "loss": 1.2329,
       "step": 40
     },
     {
+      "epoch": 0.42016806722689076,
+      "grad_norm": 0.6638385653495789,
+      "learning_rate": 0.00019353587588881707,
+      "loss": 1.1524,
       "step": 50
     },
     {
+      "epoch": 0.5042016806722689,
+      "grad_norm": 0.3663930594921112,
+      "learning_rate": 0.0001922430510665805,
+      "loss": 1.1548,
       "step": 60
     },
     {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 0.6382243633270264,
+      "learning_rate": 0.0001909502262443439,
+      "loss": 1.1993,
       "step": 70
     },
     {
+      "epoch": 0.6722689075630253,
+      "grad_norm": 1.2848349809646606,
+      "learning_rate": 0.0001896574014221073,
+      "loss": 1.1822,
       "step": 80
     },
     {
+      "epoch": 0.7563025210084033,
+      "grad_norm": 1.2714462280273438,
+      "learning_rate": 0.00018836457659987072,
+      "loss": 1.1902,
       "step": 90
     },
     {
+      "epoch": 0.8403361344537815,
+      "grad_norm": 1.4769024848937988,
+      "learning_rate": 0.00018707175177763415,
+      "loss": 1.2099,
       "step": 100
     },
     {
+      "epoch": 0.8403361344537815,
+      "eval_accuracy": 0.5047169811320755,
+      "eval_loss": 1.1625308990478516,
+      "eval_runtime": 2.2575,
+      "eval_samples_per_second": 93.909,
+      "eval_steps_per_second": 11.96,
       "step": 100
     },
     {
+      "epoch": 0.9243697478991597,
+      "grad_norm": 1.2741708755493164,
+      "learning_rate": 0.00018577892695539755,
+      "loss": 1.2203,
       "step": 110
     },
     {
+      "epoch": 1.0084033613445378,
+      "grad_norm": 1.2036206722259521,
+      "learning_rate": 0.000184486102133161,
+      "loss": 1.1936,
       "step": 120
     },
     {
+      "epoch": 1.092436974789916,
+      "grad_norm": 1.2514188289642334,
+      "learning_rate": 0.00018319327731092437,
+      "loss": 1.1515,
       "step": 130
     },
     {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 0.7073956727981567,
+      "learning_rate": 0.0001819004524886878,
+      "loss": 1.1483,
       "step": 140
     },
     {
+      "epoch": 1.2605042016806722,
+      "grad_norm": 0.7465972900390625,
+      "learning_rate": 0.0001806076276664512,
+      "loss": 1.1962,
       "step": 150
     },
     {
+      "epoch": 1.3445378151260505,
+      "grad_norm": 0.6339373588562012,
+      "learning_rate": 0.00017931480284421464,
+      "loss": 1.1156,
       "step": 160
     },
     {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 1.036371111869812,
+      "learning_rate": 0.00017802197802197802,
+      "loss": 1.1304,
       "step": 170
     },
     {
+      "epoch": 1.5126050420168067,
+      "grad_norm": 1.3491630554199219,
+      "learning_rate": 0.00017672915319974145,
+      "loss": 1.1783,
       "step": 180
     },
     {
+      "epoch": 1.596638655462185,
+      "grad_norm": 1.3167691230773926,
+      "learning_rate": 0.00017543632837750485,
+      "loss": 1.1617,
       "step": 190
     },
     {
+      "epoch": 1.680672268907563,
+      "grad_norm": 1.0561383962631226,
+      "learning_rate": 0.00017414350355526826,
+      "loss": 1.1066,
       "step": 200
     },
     {
+      "epoch": 1.680672268907563,
+      "eval_accuracy": 0.49528301886792453,
+      "eval_loss": 1.0892218351364136,
+      "eval_runtime": 2.1715,
+      "eval_samples_per_second": 97.628,
+      "eval_steps_per_second": 12.434,
       "step": 200
     },
     {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 1.2338758707046509,
+      "learning_rate": 0.0001728506787330317,
+      "loss": 1.0634,
       "step": 210
     },
     {
+      "epoch": 1.8487394957983194,
+      "grad_norm": 1.416668176651001,
+      "learning_rate": 0.0001715578539107951,
+      "loss": 1.1408,
       "step": 220
     },
     {
+      "epoch": 1.9327731092436975,
+      "grad_norm": 1.9194142818450928,
+      "learning_rate": 0.0001702650290885585,
+      "loss": 1.2019,
       "step": 230
     },
     {
+      "epoch": 2.0168067226890756,
+      "grad_norm": 1.1238566637039185,
+      "learning_rate": 0.0001689722042663219,
+      "loss": 1.0287,
       "step": 240
     },
     {
+      "epoch": 2.100840336134454,
+      "grad_norm": 3.9827613830566406,
+      "learning_rate": 0.00016767937944408534,
+      "loss": 0.9904,
       "step": 250
     },
     {
+      "epoch": 2.184873949579832,
+      "grad_norm": 1.7081505060195923,
+      "learning_rate": 0.00016638655462184875,
+      "loss": 1.0905,
       "step": 260
     },
     {
+      "epoch": 2.26890756302521,
+      "grad_norm": 2.686239719390869,
+      "learning_rate": 0.00016509372979961215,
+      "loss": 0.9177,
       "step": 270
     },
     {
+      "epoch": 2.3529411764705883,
+      "grad_norm": 1.3638893365859985,
+      "learning_rate": 0.00016380090497737556,
+      "loss": 0.9348,
       "step": 280
     },
     {
+      "epoch": 2.4369747899159666,
+      "grad_norm": 2.050823450088501,
+      "learning_rate": 0.000162508080155139,
+      "loss": 0.8364,
       "step": 290
     },
     {
+      "epoch": 2.5210084033613445,
+      "grad_norm": 1.718785047531128,
+      "learning_rate": 0.0001612152553329024,
+      "loss": 1.0298,
       "step": 300
     },
     {
+      "epoch": 2.5210084033613445,
+      "eval_accuracy": 0.589622641509434,
+      "eval_loss": 0.893924355506897,
+      "eval_runtime": 2.9715,
+      "eval_samples_per_second": 71.345,
+      "eval_steps_per_second": 9.086,
       "step": 300
     },
     {
+      "epoch": 2.6050420168067228,
+      "grad_norm": 2.593571424484253,
+      "learning_rate": 0.00015992243051066583,
+      "loss": 0.9351,
       "step": 310
     },
     {
+      "epoch": 2.689075630252101,
+      "grad_norm": 1.2314530611038208,
+      "learning_rate": 0.0001586296056884292,
+      "loss": 0.841,
       "step": 320
     },
     {
+      "epoch": 2.773109243697479,
+      "grad_norm": 2.589643716812134,
+      "learning_rate": 0.00015733678086619264,
+      "loss": 0.7806,
       "step": 330
     },
     {
+      "epoch": 2.857142857142857,
+      "grad_norm": 1.8523632287979126,
+      "learning_rate": 0.00015604395604395605,
+      "loss": 0.8915,
       "step": 340
     },
     {
+      "epoch": 2.9411764705882355,
+      "grad_norm": 2.1867382526397705,
+      "learning_rate": 0.00015475113122171948,
+      "loss": 0.8422,
       "step": 350
     },
     {
+      "epoch": 3.0252100840336134,
+      "grad_norm": 2.2038803100585938,
+      "learning_rate": 0.0001534583063994829,
+      "loss": 0.7271,
       "step": 360
     },
     {
+      "epoch": 3.1092436974789917,
+      "grad_norm": 2.8037712574005127,
+      "learning_rate": 0.0001521654815772463,
+      "loss": 0.6003,
       "step": 370
     },
     {
+      "epoch": 3.19327731092437,
+      "grad_norm": 1.8391917943954468,
+      "learning_rate": 0.0001508726567550097,
+      "loss": 0.6642,
       "step": 380
     },
     {
+      "epoch": 3.277310924369748,
+      "grad_norm": 4.166950225830078,
+      "learning_rate": 0.00014957983193277313,
+      "loss": 0.6483,
       "step": 390
     },
     {
+      "epoch": 3.361344537815126,
+      "grad_norm": 2.6970036029815674,
+      "learning_rate": 0.00014828700711053654,
+      "loss": 0.5798,
       "step": 400
     },
     {
+      "epoch": 3.361344537815126,
+      "eval_accuracy": 0.6745283018867925,
+      "eval_loss": 0.7452366948127747,
+      "eval_runtime": 2.3359,
+      "eval_samples_per_second": 90.759,
+      "eval_steps_per_second": 11.559,
       "step": 400
     },
     {
+      "epoch": 3.4453781512605044,
+      "grad_norm": 2.7985074520111084,
+      "learning_rate": 0.00014699418228829994,
+      "loss": 0.5447,
       "step": 410
     },
     {
+      "epoch": 3.5294117647058822,
+      "grad_norm": 5.049683094024658,
+      "learning_rate": 0.00014570135746606335,
+      "loss": 0.6424,
       "step": 420
     },
     {
+      "epoch": 3.6134453781512605,
+      "grad_norm": 2.288046360015869,
+      "learning_rate": 0.00014440853264382675,
+      "loss": 0.5786,
       "step": 430
     },
     {
+      "epoch": 3.697478991596639,
+      "grad_norm": 2.6284878253936768,
+      "learning_rate": 0.0001431157078215902,
+      "loss": 0.4704,
       "step": 440
     },
     {
+      "epoch": 3.7815126050420167,
+      "grad_norm": 3.1169135570526123,
+      "learning_rate": 0.0001418228829993536,
+      "loss": 0.5602,
       "step": 450
     },
     {
+      "epoch": 3.865546218487395,
+      "grad_norm": 4.109696388244629,
+      "learning_rate": 0.000140530058177117,
+      "loss": 0.5028,
       "step": 460
     },
     {
+      "epoch": 3.9495798319327733,
+      "grad_norm": 2.4809916019439697,
+      "learning_rate": 0.0001392372333548804,
+      "loss": 0.5331,
       "step": 470
     },
     {
+      "epoch": 4.033613445378151,
+      "grad_norm": 5.215726375579834,
+      "learning_rate": 0.00013794440853264384,
+      "loss": 0.6104,
       "step": 480
     },
     {
+      "epoch": 4.117647058823529,
+      "grad_norm": 2.3470144271850586,
+      "learning_rate": 0.00013665158371040724,
+      "loss": 0.3547,
       "step": 490
     },
     {
+      "epoch": 4.201680672268908,
+      "grad_norm": 2.578737258911133,
+      "learning_rate": 0.00013535875888817068,
+      "loss": 0.4879,
       "step": 500
     },
     {
+      "epoch": 4.201680672268908,
+      "eval_accuracy": 0.6556603773584906,
+      "eval_loss": 0.8673213720321655,
+      "eval_runtime": 2.9615,
+      "eval_samples_per_second": 71.585,
+      "eval_steps_per_second": 9.117,
       "step": 500
     },
     {
+      "epoch": 4.285714285714286,
+      "grad_norm": 8.1809663772583,
+      "learning_rate": 0.00013406593406593405,
+      "loss": 0.3164,
       "step": 510
     },
     {
+      "epoch": 4.369747899159664,
+      "grad_norm": 5.916128158569336,
+      "learning_rate": 0.0001327731092436975,
+      "loss": 0.3425,
       "step": 520
     },
     {
+      "epoch": 4.453781512605042,
+      "grad_norm": 1.5418981313705444,
+      "learning_rate": 0.0001314802844214609,
+      "loss": 0.3219,
       "step": 530
     },
     {
+      "epoch": 4.53781512605042,
+      "grad_norm": 0.39303484559059143,
+      "learning_rate": 0.00013018745959922433,
+      "loss": 0.372,
       "step": 540
     },
     {
+      "epoch": 4.621848739495798,
+      "grad_norm": 2.0171704292297363,
+      "learning_rate": 0.00012889463477698773,
+      "loss": 0.3941,
       "step": 550
     },
     {
+      "epoch": 4.705882352941177,
+      "grad_norm": 5.667063236236572,
+      "learning_rate": 0.00012760180995475114,
+      "loss": 0.3784,
       "step": 560
     },
     {
+      "epoch": 4.7899159663865545,
+      "grad_norm": 2.0401604175567627,
+      "learning_rate": 0.00012630898513251454,
+      "loss": 0.3231,
       "step": 570
     },
     {
+      "epoch": 4.873949579831933,
+      "grad_norm": 2.5163936614990234,
+      "learning_rate": 0.00012501616031027798,
+      "loss": 0.3287,
       "step": 580
     },
     {
+      "epoch": 4.957983193277311,
+      "grad_norm": 2.357574939727783,
+      "learning_rate": 0.00012372333548804138,
+      "loss": 0.2309,
       "step": 590
     },
     {
+      "epoch": 5.042016806722689,
+      "grad_norm": 2.399186611175537,
+      "learning_rate": 0.0001224305106658048,
+      "loss": 0.197,
       "step": 600
     },
     {
+      "epoch": 5.042016806722689,
+      "eval_accuracy": 0.6556603773584906,
+      "eval_loss": 1.0144904851913452,
+      "eval_runtime": 2.2097,
+      "eval_samples_per_second": 95.94,
+      "eval_steps_per_second": 12.219,
       "step": 600
     },
     {
+      "epoch": 5.126050420168067,
+      "grad_norm": 4.648927688598633,
+      "learning_rate": 0.00012113768584356819,
+      "loss": 0.2243,
       "step": 610
     },
     {
+      "epoch": 5.2100840336134455,
+      "grad_norm": 5.755702972412109,
+      "learning_rate": 0.00011984486102133161,
+      "loss": 0.1775,
       "step": 620
     },
     {
+      "epoch": 5.294117647058823,
+      "grad_norm": 5.102352619171143,
+      "learning_rate": 0.00011855203619909503,
+      "loss": 0.1982,
       "step": 630
     },
     {
+      "epoch": 5.378151260504202,
+      "grad_norm": 2.311920404434204,
+      "learning_rate": 0.00011725921137685845,
+      "loss": 0.2125,
       "step": 640
     },
     {
+      "epoch": 5.46218487394958,
+      "grad_norm": 5.563356876373291,
+      "learning_rate": 0.00011596638655462187,
+      "loss": 0.2259,
       "step": 650
     },
     {
+      "epoch": 5.546218487394958,
+      "grad_norm": 5.233443260192871,
+      "learning_rate": 0.00011467356173238526,
+      "loss": 0.263,
       "step": 660
     },
     {
+      "epoch": 5.630252100840336,
+      "grad_norm": 2.19209361076355,
+      "learning_rate": 0.00011338073691014868,
+      "loss": 0.2627,
       "step": 670
     },
     {
+      "epoch": 5.714285714285714,
+      "grad_norm": 5.696531772613525,
+      "learning_rate": 0.0001120879120879121,
+      "loss": 0.2588,
       "step": 680
     },
     {
+      "epoch": 5.798319327731092,
+      "grad_norm": 4.516761302947998,
+      "learning_rate": 0.0001107950872656755,
+      "loss": 0.2148,
       "step": 690
     },
     {
+      "epoch": 5.882352941176471,
+      "grad_norm": 0.21505996584892273,
+      "learning_rate": 0.00010950226244343893,
+      "loss": 0.1368,
       "step": 700
     },
     {
+      "epoch": 5.882352941176471,
+      "eval_accuracy": 0.7311320754716981,
+      "eval_loss": 0.8305109739303589,
+      "eval_runtime": 2.2559,
+      "eval_samples_per_second": 93.974,
+      "eval_steps_per_second": 11.968,
       "step": 700
     },
     {
+      "epoch": 5.966386554621849,
+      "grad_norm": 4.3951263427734375,
+      "learning_rate": 0.00010820943762120233,
+      "loss": 0.2699,
       "step": 710
     },
     {
+      "epoch": 6.050420168067227,
+      "grad_norm": 0.8779445290565491,
+      "learning_rate": 0.00010691661279896574,
+      "loss": 0.1172,
       "step": 720
     },
     {
+      "epoch": 6.1344537815126055,
+      "grad_norm": 4.695611476898193,
+      "learning_rate": 0.00010562378797672916,
+      "loss": 0.13,
       "step": 730
     },
     {
+      "epoch": 6.218487394957983,
+      "grad_norm": 7.564522743225098,
+      "learning_rate": 0.00010433096315449258,
+      "loss": 0.1392,
       "step": 740
     },
     {
+      "epoch": 6.302521008403361,
+      "grad_norm": 0.17681638896465302,
+      "learning_rate": 0.00010303813833225597,
+      "loss": 0.0828,
       "step": 750
     },
     {
+      "epoch": 6.38655462184874,
+      "grad_norm": 2.515813112258911,
+      "learning_rate": 0.00010174531351001939,
+      "loss": 0.1119,
       "step": 760
     },
     {
+      "epoch": 6.470588235294118,
+      "grad_norm": 0.3115313649177551,
+      "learning_rate": 0.0001004524886877828,
+      "loss": 0.0667,
       "step": 770
     },
     {
+      "epoch": 6.554621848739496,
+      "grad_norm": 0.9338003396987915,
+      "learning_rate": 9.915966386554623e-05,
+      "loss": 0.0779,
       "step": 780
     },
     {
+      "epoch": 6.6386554621848735,
+      "grad_norm": 5.663729190826416,
+      "learning_rate": 9.786683904330963e-05,
+      "loss": 0.0949,
       "step": 790
     },
     {
+      "epoch": 6.722689075630252,
+      "grad_norm": 1.159752368927002,
+      "learning_rate": 9.657401422107305e-05,
+      "loss": 0.0841,
       "step": 800
     },
     {
+      "epoch": 6.722689075630252,
+      "eval_accuracy": 0.7735849056603774,
+      "eval_loss": 0.8974043130874634,
+      "eval_runtime": 2.2126,
+      "eval_samples_per_second": 95.816,
+      "eval_steps_per_second": 12.203,
       "step": 800
     },
     {
+      "epoch": 6.80672268907563,
+      "grad_norm": 0.8134496808052063,
+      "learning_rate": 9.528118939883646e-05,
+      "loss": 0.1272,
       "step": 810
     },
     {
+      "epoch": 6.890756302521009,
+      "grad_norm": 0.09464468061923981,
+      "learning_rate": 9.398836457659988e-05,
+      "loss": 0.1339,
       "step": 820
     },
     {
+      "epoch": 6.974789915966387,
+      "grad_norm": 0.08403979986906052,
+      "learning_rate": 9.26955397543633e-05,
+      "loss": 0.0779,
       "step": 830
     },
     {
+      "epoch": 7.0588235294117645,
+      "grad_norm": 0.11395015567541122,
+      "learning_rate": 9.14027149321267e-05,
+      "loss": 0.0495,
       "step": 840
     },
     {
+      "epoch": 7.142857142857143,
+      "grad_norm": 5.00321102142334,
+      "learning_rate": 9.010989010989012e-05,
+      "loss": 0.2217,
       "step": 850
     },
     {
+      "epoch": 7.226890756302521,
+      "grad_norm": 5.354154109954834,
+      "learning_rate": 8.881706528765353e-05,
+      "loss": 0.0713,
       "step": 860
     },
     {
+      "epoch": 7.310924369747899,
+      "grad_norm": 0.07731425017118454,
+      "learning_rate": 8.752424046541694e-05,
+      "loss": 0.0482,
       "step": 870
     },
     {
+      "epoch": 7.394957983193278,
+      "grad_norm": 1.70600163936615,
+      "learning_rate": 8.623141564318036e-05,
+      "loss": 0.0368,
       "step": 880
     },
     {
+      "epoch": 7.4789915966386555,
+      "grad_norm": 0.09904234856367111,
+      "learning_rate": 8.493859082094377e-05,
+      "loss": 0.0389,
       "step": 890
     },
     {
+      "epoch": 7.563025210084033,
+      "grad_norm": 5.335230350494385,
+      "learning_rate": 8.364576599870718e-05,
+      "loss": 0.0942,
       "step": 900
     },
     {
+      "epoch": 7.563025210084033,
+      "eval_accuracy": 0.7216981132075472,
+      "eval_loss": 1.1261749267578125,
+      "eval_runtime": 2.2006,
+      "eval_samples_per_second": 96.335,
+      "eval_steps_per_second": 12.269,
       "step": 900
     },
     {
+      "epoch": 7.647058823529412,
+      "grad_norm": 5.030584812164307,
+      "learning_rate": 8.23529411764706e-05,
+      "loss": 0.0278,
       "step": 910
     },
     {
+      "epoch": 7.73109243697479,
+      "grad_norm": 0.12369989603757858,
+      "learning_rate": 8.1060116354234e-05,
+      "loss": 0.1137,
       "step": 920
     },
     {
+      "epoch": 7.815126050420168,
+      "grad_norm": 7.5863189697265625,
+      "learning_rate": 7.976729153199742e-05,
+      "loss": 0.0904,
       "step": 930
     },
     {
+      "epoch": 7.899159663865547,
+      "grad_norm": 0.2067825049161911,
+      "learning_rate": 7.847446670976083e-05,
+      "loss": 0.0397,
       "step": 940
     },
     {
+      "epoch": 7.983193277310924,
+      "grad_norm": 0.056721098721027374,
+      "learning_rate": 7.718164188752424e-05,
+      "loss": 0.0679,
       "step": 950
     },
     {
+      "epoch": 8.067226890756302,
+      "grad_norm": 0.05310463905334473,
+      "learning_rate": 7.588881706528765e-05,
+      "loss": 0.0329,
       "step": 960
     },
     {
+      "epoch": 8.15126050420168,
+      "grad_norm": 7.898382663726807,
+      "learning_rate": 7.459599224305107e-05,
+      "loss": 0.0183,
       "step": 970
     },
     {
+      "epoch": 8.235294117647058,
+      "grad_norm": 2.061277151107788,
+      "learning_rate": 7.330316742081448e-05,
+      "loss": 0.0311,
       "step": 980
     },
     {
+      "epoch": 8.319327731092438,
+      "grad_norm": 0.06646686792373657,
+      "learning_rate": 7.20103425985779e-05,
+      "loss": 0.0334,
       "step": 990
     },
     {
+      "epoch": 8.403361344537815,
+      "grad_norm": 0.07112545520067215,
+      "learning_rate": 7.071751777634131e-05,
+      "loss": 0.0296,
       "step": 1000
     },
     {
+      "epoch": 8.403361344537815,
+      "eval_accuracy": 0.7122641509433962,
+      "eval_loss": 1.2889635562896729,
+      "eval_runtime": 2.2011,
+      "eval_samples_per_second": 96.314,
+      "eval_steps_per_second": 12.266,
       "step": 1000
     },
     {
+      "epoch": 8.487394957983193,
+      "grad_norm": 0.07936228811740875,
+      "learning_rate": 6.942469295410472e-05,
+      "loss": 0.0256,
       "step": 1010
     },
     {
+      "epoch": 8.571428571428571,
+      "grad_norm": 5.849864959716797,
+      "learning_rate": 6.813186813186814e-05,
+      "loss": 0.0346,
       "step": 1020
     },
     {
+      "epoch": 8.655462184873949,
+      "grad_norm": 0.05158023163676262,
+      "learning_rate": 6.683904330963154e-05,
+      "loss": 0.0109,
       "step": 1030
     },
     {
+      "epoch": 8.739495798319329,
+      "grad_norm": 0.05596969276666641,
+      "learning_rate": 6.554621848739496e-05,
+      "loss": 0.0129,
       "step": 1040
     },
     {
+      "epoch": 8.823529411764707,
+      "grad_norm": 0.05292417109012604,
+      "learning_rate": 6.425339366515838e-05,
+      "loss": 0.033,
       "step": 1050
     },
     {
+      "epoch": 8.907563025210084,
+      "grad_norm": 0.8892333507537842,
+      "learning_rate": 6.296056884292179e-05,
+      "loss": 0.0199,
       "step": 1060
     },
     {
+      "epoch": 8.991596638655462,
+      "grad_norm": 1.8524911403656006,
+      "learning_rate": 6.166774402068521e-05,
+      "loss": 0.0324,
       "step": 1070
     },
     {
+      "epoch": 9.07563025210084,
+      "grad_norm": 0.040928326547145844,
+      "learning_rate": 6.037491919844861e-05,
+      "loss": 0.0352,
       "step": 1080
     },
     {
+      "epoch": 9.159663865546218,
+      "grad_norm": 0.043698906898498535,
+      "learning_rate": 5.9082094376212026e-05,
+      "loss": 0.009,
       "step": 1090
     },
     {
+      "epoch": 9.243697478991596,
+      "grad_norm": 0.04034803435206413,
+      "learning_rate": 5.778926955397543e-05,
+      "loss": 0.0432,
       "step": 1100
     },
     {
+      "epoch": 9.243697478991596,
+      "eval_accuracy": 0.7405660377358491,
+      "eval_loss": 1.2427575588226318,
+      "eval_runtime": 2.1879,
+      "eval_samples_per_second": 96.895,
+      "eval_steps_per_second": 12.34,
       "step": 1100
     },
     {
+      "epoch": 9.327731092436975,
+      "grad_norm": 0.042758312076330185,
+      "learning_rate": 5.649644473173885e-05,
+      "loss": 0.0086,
       "step": 1110
     },
     {
+      "epoch": 9.411764705882353,
+      "grad_norm": 0.05348571389913559,
+      "learning_rate": 5.520361990950227e-05,
+      "loss": 0.0113,
       "step": 1120
     },
     {
+      "epoch": 9.495798319327731,
+      "grad_norm": 0.04173032566905022,
+      "learning_rate": 5.3910795087265676e-05,
+      "loss": 0.0083,
       "step": 1130
     },
     {
+      "epoch": 9.579831932773109,
+      "grad_norm": 0.03784575313329697,
+      "learning_rate": 5.2617970265029096e-05,
+      "loss": 0.0086,
       "step": 1140
     },
     {
+      "epoch": 9.663865546218487,
+      "grad_norm": 0.05332985520362854,
+      "learning_rate": 5.13251454427925e-05,
+      "loss": 0.0086,
       "step": 1150
     },
     {
+      "epoch": 9.747899159663866,
+      "grad_norm": 0.03503885120153427,
+      "learning_rate": 5.0032320620555914e-05,
+      "loss": 0.0078,
       "step": 1160
     },
     {
+      "epoch": 9.831932773109244,
+      "grad_norm": 0.033440928906202316,
+      "learning_rate": 4.8739495798319326e-05,
+      "loss": 0.0095,
       "step": 1170
     },
     {
+      "epoch": 9.915966386554622,
+      "grad_norm": 0.03903155028820038,
+      "learning_rate": 4.744667097608274e-05,
+      "loss": 0.0071,
       "step": 1180
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 0.034581057727336884,
+      "learning_rate": 4.615384615384616e-05,
+      "loss": 0.0347,
       "step": 1190
     },
     {
+      "epoch": 10.084033613445378,
+      "grad_norm": 4.804828643798828,
+      "learning_rate": 4.486102133160957e-05,
+      "loss": 0.0353,
       "step": 1200
     },
     {
+      "epoch": 10.084033613445378,
+      "eval_accuracy": 0.7452830188679245,
+      "eval_loss": 1.250637173652649,
+      "eval_runtime": 2.1411,
+      "eval_samples_per_second": 99.016,
+      "eval_steps_per_second": 12.61,
       "step": 1200
     },
     {
+      "epoch": 10.168067226890756,
+      "grad_norm": 0.03247935697436333,
+      "learning_rate": 4.356819650937298e-05,
+      "loss": 0.0071,
       "step": 1210
     },
     {
+      "epoch": 10.252100840336134,
+      "grad_norm": 0.03735749423503876,
+      "learning_rate": 4.2275371687136396e-05,
+      "loss": 0.007,
       "step": 1220
     },
     {
+      "epoch": 10.336134453781513,
+      "grad_norm": 0.03190077841281891,
+      "learning_rate": 4.098254686489981e-05,
+      "loss": 0.0068,
       "step": 1230
     },
     {
+      "epoch": 10.420168067226891,
+      "grad_norm": 0.03304820880293846,
+      "learning_rate": 3.968972204266322e-05,
+      "loss": 0.0063,
       "step": 1240
     },
     {
+      "epoch": 10.504201680672269,
+      "grad_norm": 0.038498662412166595,
+      "learning_rate": 3.839689722042663e-05,
+      "loss": 0.0069,
       "step": 1250
     },
     {
+      "epoch": 10.588235294117647,
+      "grad_norm": 0.03530021384358406,
+      "learning_rate": 3.7104072398190046e-05,
+      "loss": 0.0067,
       "step": 1260
     },
     {
+      "epoch": 10.672268907563025,
+      "grad_norm": 0.041745755821466446,
+      "learning_rate": 3.581124757595346e-05,
+      "loss": 0.0063,
       "step": 1270
     },
     {
+      "epoch": 10.756302521008404,
+      "grad_norm": 0.03443057835102081,
+      "learning_rate": 3.451842275371687e-05,
+      "loss": 0.0062,
       "step": 1280
     },
     {
+      "epoch": 10.840336134453782,
+      "grad_norm": 0.029045993462204933,
+      "learning_rate": 3.322559793148028e-05,
+      "loss": 0.0063,
       "step": 1290
     },
     {
+      "epoch": 10.92436974789916,
+      "grad_norm": 0.04033966362476349,
+      "learning_rate": 3.1932773109243696e-05,
+      "loss": 0.0065,
       "step": 1300
     },
     {
+      "epoch": 10.92436974789916,
+      "eval_accuracy": 0.7783018867924528,
+      "eval_loss": 1.1232017278671265,
+      "eval_runtime": 2.9539,
+      "eval_samples_per_second": 71.77,
+      "eval_steps_per_second": 9.141,
       "step": 1300
     },
     {
+      "epoch": 11.008403361344538,
+      "grad_norm": 0.029126280918717384,
+      "learning_rate": 3.0639948287007115e-05,
+      "loss": 0.0063,
       "step": 1310
     },
     {
+      "epoch": 11.092436974789916,
+      "grad_norm": 0.02833595871925354,
+      "learning_rate": 2.9347123464770527e-05,
+      "loss": 0.0063,
       "step": 1320
     },
     {
+      "epoch": 11.176470588235293,
+      "grad_norm": 0.032052479684352875,
+      "learning_rate": 2.805429864253394e-05,
+      "loss": 0.0063,
       "step": 1330
     },
     {
+      "epoch": 11.260504201680673,
+      "grad_norm": 0.030251996591687202,
+      "learning_rate": 2.676147382029735e-05,
+      "loss": 0.006,
       "step": 1340
     },
     {
+      "epoch": 11.344537815126051,
+      "grad_norm": 0.030112557113170624,
+      "learning_rate": 2.546864899806076e-05,
+      "loss": 0.0059,
       "step": 1350
     },
     {
+      "epoch": 11.428571428571429,
+      "grad_norm": 0.027209602296352386,
+      "learning_rate": 2.4175824175824177e-05,
+      "loss": 0.0059,
       "step": 1360
     },
     {
+      "epoch": 11.512605042016807,
+      "grad_norm": 0.027164172381162643,
+      "learning_rate": 2.288299935358759e-05,
+      "loss": 0.0057,
       "step": 1370
     },
     {
+      "epoch": 11.596638655462185,
+      "grad_norm": 0.02858646586537361,
+      "learning_rate": 2.1590174531351002e-05,
+      "loss": 0.0058,
       "step": 1380
     },
     {
+      "epoch": 11.680672268907562,
+      "grad_norm": 0.02894781529903412,
+      "learning_rate": 2.0297349709114415e-05,
+      "loss": 0.0055,
       "step": 1390
     },
     {
+      "epoch": 11.764705882352942,
+      "grad_norm": 0.025563258677721024,
+      "learning_rate": 1.9004524886877827e-05,
+      "loss": 0.0056,
       "step": 1400
     },
     {
+      "epoch": 11.764705882352942,
+      "eval_accuracy": 0.7830188679245284,
+      "eval_loss": 1.1348851919174194,
+      "eval_runtime": 2.1553,
+      "eval_samples_per_second": 98.362,
+      "eval_steps_per_second": 12.527,
       "step": 1400
     },
     {
+      "epoch": 11.84873949579832,
+      "grad_norm": 0.027119316160678864,
+      "learning_rate": 1.7711700064641243e-05,
+      "loss": 0.0056,
       "step": 1410
     },
     {
+      "epoch": 11.932773109243698,
+      "grad_norm": 0.02663271874189377,
+      "learning_rate": 1.6418875242404656e-05,
+      "loss": 0.0055,
       "step": 1420
     },
     {
+      "epoch": 12.016806722689076,
+      "grad_norm": 0.027364488691091537,
+      "learning_rate": 1.5126050420168067e-05,
+      "loss": 0.0054,
       "step": 1430
     },
     {
+      "epoch": 12.100840336134453,
+      "grad_norm": 0.02702498808503151,
+      "learning_rate": 1.3833225597931483e-05,
+      "loss": 0.0057,
       "step": 1440
     },
     {
+      "epoch": 12.184873949579831,
+      "grad_norm": 0.02570091001689434,
+      "learning_rate": 1.2540400775694893e-05,
+      "loss": 0.0054,
       "step": 1450
     },
     {
+      "epoch": 12.268907563025211,
+      "grad_norm": 0.02761007659137249,
+      "learning_rate": 1.1247575953458308e-05,
+      "loss": 0.0055,
       "step": 1460
     },
     {
+      "epoch": 12.352941176470589,
+      "grad_norm": 0.02617548778653145,
+      "learning_rate": 9.95475113122172e-06,
+      "loss": 0.0055,
       "step": 1470
     },
     {
+      "epoch": 12.436974789915967,
+      "grad_norm": 0.02675885520875454,
+      "learning_rate": 8.661926308985133e-06,
+      "loss": 0.0056,
       "step": 1480
     },
     {
+      "epoch": 12.521008403361344,
+      "grad_norm": 0.029071761295199394,
+      "learning_rate": 7.369101486748546e-06,
+      "loss": 0.0052,
       "step": 1490
     },
     {
+      "epoch": 12.605042016806722,
+      "grad_norm": 0.02562028169631958,
+      "learning_rate": 6.076276664511959e-06,
+      "loss": 0.0054,
       "step": 1500
     },
     {
+      "epoch": 12.605042016806722,
+      "eval_accuracy": 0.7830188679245284,
+      "eval_loss": 1.1463406085968018,
+      "eval_runtime": 2.157,
+      "eval_samples_per_second": 98.284,
+      "eval_steps_per_second": 12.517,
       "step": 1500
     },
     {
+      "epoch": 12.6890756302521,
+      "grad_norm": 0.024869520217180252,
+      "learning_rate": 4.783451842275372e-06,
+      "loss": 0.0055,
       "step": 1510
     },
     {
+      "epoch": 12.77310924369748,
+      "grad_norm": 0.02748894691467285,
+      "learning_rate": 3.490627020038785e-06,
+      "loss": 0.0056,
       "step": 1520
     },
     {
+      "epoch": 12.857142857142858,
+      "grad_norm": 0.026005534455180168,
+      "learning_rate": 2.197802197802198e-06,
+      "loss": 0.0056,
       "step": 1530
     },
     {
+      "epoch": 12.941176470588236,
+      "grad_norm": 0.028039414435625076,
+      "learning_rate": 9.04977375565611e-07,
+      "loss": 0.0054,
       "step": 1540
     },
     {
       "epoch": 13.0,
+      "step": 1547,
+      "total_flos": 1.9140864535683072e+18,
+      "train_loss": 0.35688263059153663,
+      "train_runtime": 955.328,
+      "train_samples_per_second": 25.855,
+      "train_steps_per_second": 1.619
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1547,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 13,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.9140864535683072e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null