End of training

Browse files

Files changed (8) hide show

README.md +2 -0
all_results.json +15 -15
eval_results.json +8 -8
predict_results.json +3 -3
predict_results.txt +40 -40
runs/Jun03_14-50-36_a358b85c7679/events.out.tfevents.1717426889.a358b85c7679.152585.1 +3 -0
train_results.json +4 -4
trainer_state.json +198 -198

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
     "accuracy": 0.904055390702275,
     "epoch": 20.0,
-    "eval_accuracy": 0.8922305764411027,
-    "eval_f1": 0.8696722245432793,
-    "eval_loss": 0.29425162076950073,
-    "eval_precision": 0.8706135006701596,
-    "eval_recall": 0.8687488634297145,
-    "eval_runtime": 5.0818,
     "eval_samples": 399,
-    "eval_samples_per_second": 78.516,
-    "eval_steps_per_second": 9.839,
-    "f1": 0.8862491460015474,
-    "precision": 0.881173503483252,
-    "recall": 0.8919373664542485,
-    "train_loss": 0.2198484170632284,
-    "train_runtime": 1952.2473,
     "train_samples": 3638,
-    "train_samples_per_second": 37.27,
-    "train_steps_per_second": 1.25
 }

 {
     "accuracy": 0.904055390702275,
     "epoch": 20.0,
+    "eval_accuracy": 0.8872180451127819,
+    "eval_f1": 0.8656072933585827,
+    "eval_loss": 0.30540019273757935,
+    "eval_precision": 0.8614399005740664,
+    "eval_recall": 0.8702036733951628,
+    "eval_runtime": 1.8192,
     "eval_samples": 399,
+    "eval_samples_per_second": 219.323,
+    "eval_steps_per_second": 27.484,
+    "f1": 0.8864593379544456,
+    "precision": 0.8807881773399014,
+    "recall": 0.892913956531152,
+    "train_loss": 0.21972156196344095,
+    "train_runtime": 635.9425,
     "train_samples": 3638,
+    "train_samples_per_second": 114.413,
+    "train_steps_per_second": 3.837
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
     "epoch": 20.0,
-    "eval_accuracy": 0.8922305764411027,
-    "eval_f1": 0.8696722245432793,
-    "eval_loss": 0.29425162076950073,
-    "eval_precision": 0.8706135006701596,
-    "eval_recall": 0.8687488634297145,
-    "eval_runtime": 5.0818,
     "eval_samples": 399,
-    "eval_samples_per_second": 78.516,
-    "eval_steps_per_second": 9.839
 }

 {
     "epoch": 20.0,
+    "eval_accuracy": 0.8872180451127819,
+    "eval_f1": 0.8656072933585827,
+    "eval_loss": 0.30540019273757935,
+    "eval_precision": 0.8614399005740664,
+    "eval_recall": 0.8702036733951628,
+    "eval_runtime": 1.8192,
     "eval_samples": 399,
+    "eval_samples_per_second": 219.323,
+    "eval_steps_per_second": 27.484
 }

predict_results.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
     "accuracy": 0.904055390702275,
-    "f1": 0.8862491460015474,
-    "precision": 0.881173503483252,
-    "recall": 0.8919373664542485
 }

 {
     "accuracy": 0.904055390702275,
+    "f1": 0.8864593379544456,
+    "precision": 0.8807881773399014,
+    "recall": 0.892913956531152
 }

predict_results.txt CHANGED Viewed

@@ -5,7 +5,7 @@ index	prediction
 3	1
 4	1
 5	1
-6	0
 7	1
 8	0
 9	1
@@ -20,11 +20,11 @@ index	prediction
 18	1
 19	1
 20	1
-21	0
 22	1
 23	1
 24	1
-25	0
 26	1
 27	1
 28	1
@@ -82,14 +82,14 @@ index	prediction
 80	1
 81	1
 82	1
-83	1
 84	1
 85	1
 86	1
 87	1
 88	1
 89	1
-90	0
 91	1
 92	1
 93	1
@@ -105,7 +105,7 @@ index	prediction
 103	1
 104	1
 105	0
-106	1
 107	1
 108	1
 109	0
@@ -144,7 +144,7 @@ index	prediction
 142	1
 143	1
 144	1
-145	0
 146	1
 147	1
 148	1
@@ -157,7 +157,7 @@ index	prediction
 155	1
 156	0
 157	1
-158	1
 159	1
 160	1
 161	0
@@ -217,7 +217,7 @@ index	prediction
 215	0
 216	1
 217	0
-218	1
 219	1
 220	1
 221	1
@@ -232,7 +232,7 @@ index	prediction
 230	0
 231	1
 232	1
-233	1
 234	1
 235	1
 236	1
@@ -247,7 +247,7 @@ index	prediction
 245	1
 246	1
 247	1
-248	0
 249	1
 250	1
 251	1
@@ -334,14 +334,14 @@ index	prediction
 332	0
 333	0
 334	0
-335	0
 336	0
 337	0
 338	0
 339	1
 340	0
 341	0
-342	1
 343	0
 344	0
 345	0
@@ -365,10 +365,10 @@ index	prediction
 363	0
 364	0
 365	0
-366	0
 367	0
 368	0
-369	0
 370	0
 371	0
 372	1
@@ -419,9 +419,9 @@ index	prediction
 417	0
 418	0
 419	0
-420	0
 421	0
-422	1
 423	0
 424	0
 425	0
@@ -463,7 +463,7 @@ index	prediction
 461	0
 462	0
 463	0
-464	1
 465	0
 466	0
 467	0
@@ -595,7 +595,7 @@ index	prediction
 593	0
 594	0
 595	0
-596	1
 597	1
 598	0
 599	0
@@ -617,11 +617,11 @@ index	prediction
 615	0
 616	0
 617	0
-618	1
 619	0
 620	0
 621	0
-622	0
 623	0
 624	0
 625	0
@@ -667,12 +667,12 @@ index	prediction
 665	0
 666	1
 667	0
-668	1
 669	0
 670	0
 671	0
 672	0
-673	1
 674	1
 675	0
 676	0
@@ -696,7 +696,7 @@ index	prediction
 694	0
 695	0
 696	0
-697	1
 698	0
 699	0
 700	0
@@ -725,9 +725,9 @@ index	prediction
 723	0
 724	0
 725	0
-726	1
 727	0
-728	1
 729	0
 730	0
 731	0
@@ -798,7 +798,7 @@ index	prediction
 796	0
 797	0
 798	1
-799	1
 800	0
 801	0
 802	1
@@ -808,7 +808,7 @@ index	prediction
 806	0
 807	0
 808	0
-809	0
 810	1
 811	0
 812	0
@@ -816,7 +816,7 @@ index	prediction
 814	0
 815	0
 816	0
-817	0
 818	0
 819	0
 820	0
@@ -831,13 +831,13 @@ index	prediction
 829	0
 830	0
 831	1
-832	0
 833	0
 834	0
 835	0
 836	0
 837	0
-838	1
 839	0
 840	0
 841	0
@@ -859,13 +859,13 @@ index	prediction
 857	0
 858	0
 859	0
-860	1
 861	0
 862	0
 863	0
 864	0
 865	0
-866	1
 867	0
 868	0
 869	0
@@ -885,7 +885,7 @@ index	prediction
 883	0
 884	0
 885	0
-886	0
 887	0
 888	0
 889	0
@@ -911,8 +911,8 @@ index	prediction
 909	0
 910	0
 911	0
-912	0
-913	0
 914	0
 915	0
 916	0
@@ -923,10 +923,10 @@ index	prediction
 921	1
 922	0
 923	0
-924	0
 925	0
 926	1
-927	0
 928	0
 929	0
 930	0
@@ -944,7 +944,7 @@ index	prediction
 942	0
 943	0
 944	0
-945	0
 946	0
 947	1
 948	0
@@ -966,7 +966,7 @@ index	prediction
 964	0
 965	0
 966	0
-967	0
 968	0
 969	0
 970	0

 3	1
 4	1
 5	1
+6	1
 7	1
 8	0
 9	1
 18	1
 19	1
 20	1
+21	1
 22	1
 23	1
 24	1
+25	1
 26	1
 27	1
 28	1
 80	1
 81	1
 82	1
+83	0
 84	1
 85	1
 86	1
 87	1
 88	1
 89	1
+90	1
 91	1
 92	1
 93	1
 103	1
 104	1
 105	0
+106	0
 107	1
 108	1
 109	0
 142	1
 143	1
 144	1
+145	1
 146	1
 147	1
 148	1
 155	1
 156	0
 157	1
+158	0
 159	1
 160	1
 161	0
 215	0
 216	1
 217	0
+218	0
 219	1
 220	1
 221	1
 230	0
 231	1
 232	1
+233	0
 234	1
 235	1
 236	1
 245	1
 246	1
 247	1
+248	1
 249	1
 250	1
 251	1
 332	0
 333	0
 334	0
+335	1
 336	0
 337	0
 338	0
 339	1
 340	0
 341	0
+342	0
 343	0
 344	0
 345	0
 363	0
 364	0
 365	0
+366	1
 367	0
 368	0
+369	1
 370	0
 371	0
 372	1
 417	0
 418	0
 419	0
+420	1
 421	0
+422	0
 423	0
 424	0
 425	0
 461	0
 462	0
 463	0
+464	0
 465	0
 466	0
 467	0
 593	0
 594	0
 595	0
+596	0
 597	1
 598	0
 599	0
 615	0
 616	0
 617	0
+618	0
 619	0
 620	0
 621	0
+622	1
 623	0
 624	0
 625	0
 665	0
 666	1
 667	0
+668	0
 669	0
 670	0
 671	0
 672	0
+673	0
 674	1
 675	0
 676	0
 694	0
 695	0
 696	0
+697	0
 698	0
 699	0
 700	0
 723	0
 724	0
 725	0
+726	0
 727	0
+728	0
 729	0
 730	0
 731	0
 796	0
 797	0
 798	1
+799	0
 800	0
 801	0
 802	1
 806	0
 807	0
 808	0
+809	1
 810	1
 811	0
 812	0
 814	0
 815	0
 816	0
+817	1
 818	0
 819	0
 820	0
 829	0
 830	0
 831	1
+832	1
 833	0
 834	0
 835	0
 836	0
 837	0
+838	0
 839	0
 840	0
 841	0
 857	0
 858	0
 859	0
+860	0
 861	0
 862	0
 863	0
 864	0
 865	0
+866	0
 867	0
 868	0
 869	0
 883	0
 884	0
 885	0
+886	1
 887	0
 888	0
 889	0
 909	0
 910	0
 911	0
+912	1
+913	1
 914	0
 915	0
 916	0
 921	1
 922	0
 923	0
+924	1
 925	0
 926	1
+927	1
 928	0
 929	0
 930	0
 942	0
 943	0
 944	0
+945	1
 946	0
 947	1
 948	0
 964	0
 965	0
 966	0
+967	1
 968	0
 969	0
 970	0

runs/Jun03_14-50-36_a358b85c7679/events.out.tfevents.1717426889.a358b85c7679.152585.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e2aec453ed3bd2226bb57186fd506344302a5388d15a1e7aa2c05df1e09c834
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 20.0,
-    "train_loss": 0.2198484170632284,
-    "train_runtime": 1952.2473,
     "train_samples": 3638,
-    "train_samples_per_second": 37.27,
-    "train_steps_per_second": 1.25
 }

 {
     "epoch": 20.0,
+    "train_loss": 0.21972156196344095,
+    "train_runtime": 635.9425,
     "train_samples": 3638,
+    "train_samples_per_second": 114.413,
+    "train_steps_per_second": 3.837
 }

trainer_state.json CHANGED Viewed

@@ -10,392 +10,392 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 4.1507415771484375,
       "learning_rate": 4.75e-05,
-      "loss": 0.5452,
       "step": 122
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.7468671679197995,
-      "eval_f1": 0.6572777139941319,
-      "eval_loss": 0.4919416010379791,
-      "eval_precision": 0.6922477833692786,
-      "eval_recall": 0.6458901618476087,
-      "eval_runtime": 5.1705,
-      "eval_samples_per_second": 77.169,
-      "eval_steps_per_second": 9.67,
       "step": 122
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.406769037246704,
       "learning_rate": 4.5e-05,
-      "loss": 0.4299,
       "step": 244
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8070175438596491,
-      "eval_f1": 0.7892003156197468,
-      "eval_loss": 0.4071064293384552,
-      "eval_precision": 0.7801980454004861,
-      "eval_recall": 0.8284688125113657,
-      "eval_runtime": 5.112,
-      "eval_samples_per_second": 78.052,
-      "eval_steps_per_second": 9.781,
       "step": 244
     },
     {
       "epoch": 3.0,
-      "grad_norm": 4.251235485076904,
       "learning_rate": 4.25e-05,
-      "loss": 0.3291,
       "step": 366
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8671679197994987,
-      "eval_f1": 0.8385441718775052,
-      "eval_loss": 0.3090916574001312,
-      "eval_precision": 0.8412280701754387,
-      "eval_recall": 0.8360156392071285,
-      "eval_runtime": 5.2309,
-      "eval_samples_per_second": 76.278,
-      "eval_steps_per_second": 9.559,
       "step": 366
     },
     {
       "epoch": 4.0,
-      "grad_norm": 2.2053372859954834,
       "learning_rate": 4e-05,
-      "loss": 0.2887,
       "step": 488
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8521303258145363,
-      "eval_f1": 0.8193336965948074,
-      "eval_loss": 0.303335577249527,
-      "eval_precision": 0.8237151567944251,
-      "eval_recall": 0.8153755228223314,
-      "eval_runtime": 5.1617,
-      "eval_samples_per_second": 77.3,
-      "eval_steps_per_second": 9.687,
       "step": 488
     },
     {
       "epoch": 5.0,
-      "grad_norm": 4.25098991394043,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.2579,
       "step": 610
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.8646616541353384,
-      "eval_f1": 0.839868600986979,
-      "eval_loss": 0.28800028562545776,
-      "eval_precision": 0.834029197080292,
-      "eval_recall": 0.8467448627023095,
-      "eval_runtime": 5.0803,
-      "eval_samples_per_second": 78.539,
-      "eval_steps_per_second": 9.842,
       "step": 610
     },
     {
       "epoch": 6.0,
-      "grad_norm": 4.713165283203125,
       "learning_rate": 3.5e-05,
-      "loss": 0.232,
       "step": 732
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.87468671679198,
-      "eval_f1": 0.8537390029325513,
-      "eval_loss": 0.29194238781929016,
-      "eval_precision": 0.8442805058676086,
-      "eval_recall": 0.8663393344244408,
-      "eval_runtime": 5.1321,
-      "eval_samples_per_second": 77.746,
-      "eval_steps_per_second": 9.743,
       "step": 732
     },
     {
       "epoch": 7.0,
-      "grad_norm": 0.4289064109325409,
       "learning_rate": 3.2500000000000004e-05,
-      "loss": 0.2181,
       "step": 854
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.858259325044405,
-      "eval_loss": 0.27966198325157166,
-      "eval_precision": 0.8573798178418481,
-      "eval_recall": 0.8591562102200401,
-      "eval_runtime": 5.1216,
-      "eval_samples_per_second": 77.905,
-      "eval_steps_per_second": 9.762,
       "step": 854
     },
     {
       "epoch": 8.0,
-      "grad_norm": 3.9783072471618652,
       "learning_rate": 3e-05,
-      "loss": 0.2114,
       "step": 976
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.87468671679198,
-      "eval_f1": 0.8488361520276414,
-      "eval_loss": 0.28283119201660156,
-      "eval_precision": 0.8488361520276414,
-      "eval_recall": 0.8488361520276414,
-      "eval_runtime": 5.152,
-      "eval_samples_per_second": 77.446,
-      "eval_steps_per_second": 9.705,
       "step": 976
     },
     {
       "epoch": 9.0,
-      "grad_norm": 5.3162617683410645,
       "learning_rate": 2.7500000000000004e-05,
-      "loss": 0.199,
       "step": 1098
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.8796992481203008,
-      "eval_f1": 0.8569892473118279,
-      "eval_loss": 0.28352341055870056,
-      "eval_precision": 0.8522004241781549,
-      "eval_recall": 0.8623840698308783,
-      "eval_runtime": 5.133,
-      "eval_samples_per_second": 77.732,
-      "eval_steps_per_second": 9.741,
       "step": 1098
     },
     {
       "epoch": 10.0,
-      "grad_norm": 3.3976027965545654,
       "learning_rate": 2.5e-05,
-      "loss": 0.189,
       "step": 1220
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.8771929824561403,
-      "eval_f1": 0.8499551039516197,
-      "eval_loss": 0.28156498074531555,
-      "eval_precision": 0.8547473867595818,
-      "eval_recall": 0.8456082924168031,
-      "eval_runtime": 5.1772,
-      "eval_samples_per_second": 77.068,
-      "eval_steps_per_second": 9.658,
       "step": 1220
     },
     {
       "epoch": 11.0,
-      "grad_norm": 4.37730073928833,
       "learning_rate": 2.25e-05,
-      "loss": 0.1738,
       "step": 1342
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.858259325044405,
-      "eval_loss": 0.290470689535141,
-      "eval_precision": 0.8573798178418481,
-      "eval_recall": 0.8591562102200401,
-      "eval_runtime": 5.174,
-      "eval_samples_per_second": 77.116,
-      "eval_steps_per_second": 9.664,
       "step": 1342
     },
     {
       "epoch": 12.0,
-      "grad_norm": 4.796699047088623,
       "learning_rate": 2e-05,
-      "loss": 0.1688,
       "step": 1464
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.852937255424767,
-      "eval_loss": 0.3152221739292145,
-      "eval_precision": 0.8674217731421121,
-      "eval_recall": 0.8416530278232406,
-      "eval_runtime": 5.1474,
-      "eval_samples_per_second": 77.514,
-      "eval_steps_per_second": 9.714,
       "step": 1464
     },
     {
       "epoch": 13.0,
-      "grad_norm": 3.7500946521759033,
       "learning_rate": 1.75e-05,
-      "loss": 0.1655,
       "step": 1586
     },
     {
       "epoch": 13.0,
       "eval_accuracy": 0.8696741854636592,
       "eval_f1": 0.8411818738518064,
-      "eval_loss": 0.2901403605937958,
       "eval_precision": 0.8448542607834644,
       "eval_recall": 0.8377886888525186,
-      "eval_runtime": 5.147,
-      "eval_samples_per_second": 77.521,
-      "eval_steps_per_second": 9.714,
       "step": 1586
     },
     {
       "epoch": 14.0,
-      "grad_norm": 3.2664284706115723,
       "learning_rate": 1.5e-05,
-      "loss": 0.1467,
       "step": 1708
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.8796992481203008,
-      "eval_f1": 0.8576609786550924,
-      "eval_loss": 0.29550954699516296,
-      "eval_precision": 0.8515036496350366,
-      "eval_recall": 0.8648845244589926,
-      "eval_runtime": 5.17,
-      "eval_samples_per_second": 77.177,
-      "eval_steps_per_second": 9.671,
       "step": 1708
     },
     {
       "epoch": 15.0,
-      "grad_norm": 2.9612016677856445,
       "learning_rate": 1.25e-05,
       "loss": 0.1442,
       "step": 1830
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.8822055137844611,
-      "eval_f1": 0.8589543987905864,
-      "eval_loss": 0.2865639328956604,
-      "eval_precision": 0.8564068100358423,
-      "eval_recall": 0.8616566648481543,
-      "eval_runtime": 5.1432,
-      "eval_samples_per_second": 77.578,
-      "eval_steps_per_second": 9.722,
       "step": 1830
     },
     {
       "epoch": 16.0,
-      "grad_norm": 1.4573726654052734,
       "learning_rate": 1e-05,
-      "loss": 0.1419,
       "step": 1952
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.8847117794486216,
-      "eval_f1": 0.8616171059774413,
-      "eval_loss": 0.2902199625968933,
-      "eval_precision": 0.859873949579832,
-      "eval_recall": 0.8634297144935443,
-      "eval_runtime": 5.1161,
-      "eval_samples_per_second": 77.99,
-      "eval_steps_per_second": 9.773,
       "step": 1952
     },
     {
       "epoch": 17.0,
-      "grad_norm": 0.22904033958911896,
       "learning_rate": 7.5e-06,
-      "loss": 0.1416,
       "step": 2074
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.8897243107769424,
-      "eval_f1": 0.8676337535436396,
-      "eval_loss": 0.28978079557418823,
-      "eval_precision": 0.8658613445378152,
-      "eval_recall": 0.8694762684124386,
-      "eval_runtime": 5.0704,
-      "eval_samples_per_second": 78.692,
-      "eval_steps_per_second": 9.861,
       "step": 2074
     },
     {
       "epoch": 18.0,
-      "grad_norm": 2.0896894931793213,
       "learning_rate": 5e-06,
-      "loss": 0.1389,
       "step": 2196
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.8872180451127819,
-      "eval_f1": 0.8629148629148629,
-      "eval_loss": 0.2956070601940155,
-      "eval_precision": 0.8657894736842104,
-      "eval_recall": 0.860201854882706,
-      "eval_runtime": 5.0999,
-      "eval_samples_per_second": 78.237,
-      "eval_steps_per_second": 9.804,
       "step": 2196
     },
     {
       "epoch": 19.0,
-      "grad_norm": 0.2827831506729126,
       "learning_rate": 2.5e-06,
-      "loss": 0.1401,
       "step": 2318
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.8922305764411027,
-      "eval_f1": 0.8696722245432793,
-      "eval_loss": 0.2937273681163788,
-      "eval_precision": 0.8706135006701596,
-      "eval_recall": 0.8687488634297145,
-      "eval_runtime": 5.1361,
-      "eval_samples_per_second": 77.686,
-      "eval_steps_per_second": 9.735,
       "step": 2318
     },
     {
       "epoch": 20.0,
-      "grad_norm": 4.219526290893555,
       "learning_rate": 0.0,
-      "loss": 0.1348,
       "step": 2440
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.8922305764411027,
-      "eval_f1": 0.8696722245432793,
-      "eval_loss": 0.29425162076950073,
-      "eval_precision": 0.8706135006701596,
-      "eval_recall": 0.8687488634297145,
-      "eval_runtime": 5.1486,
-      "eval_samples_per_second": 77.497,
-      "eval_steps_per_second": 9.711,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
-      "train_loss": 0.2198484170632284,
-      "train_runtime": 1952.2473,
-      "train_samples_per_second": 37.27,
-      "train_steps_per_second": 1.25
     }
   ],
   "logging_steps": 500,

   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.9823102951049805,
       "learning_rate": 4.75e-05,
+      "loss": 0.5456,
       "step": 122
     },
     {
       "epoch": 1.0,
       "eval_accuracy": 0.7468671679197995,
+      "eval_f1": 0.6641666041651041,
+      "eval_loss": 0.49161723256111145,
+      "eval_precision": 0.6912698412698413,
+      "eval_recall": 0.6533915257319513,
+      "eval_runtime": 1.7896,
+      "eval_samples_per_second": 222.952,
+      "eval_steps_per_second": 27.939,
       "step": 122
     },
     {
       "epoch": 2.0,
+      "grad_norm": 2.931857109069824,
       "learning_rate": 4.5e-05,
+      "loss": 0.4369,
       "step": 244
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8120300751879699,
+      "eval_f1": 0.7912087912087912,
+      "eval_loss": 0.41080209612846375,
+      "eval_precision": 0.7802706552706553,
+      "eval_recall": 0.822013093289689,
+      "eval_runtime": 1.8221,
+      "eval_samples_per_second": 218.982,
+      "eval_steps_per_second": 27.441,
       "step": 244
     },
     {
       "epoch": 3.0,
+      "grad_norm": 3.00280499458313,
       "learning_rate": 4.25e-05,
+      "loss": 0.3316,
       "step": 366
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8571428571428571,
+      "eval_f1": 0.81524926686217,
+      "eval_loss": 0.3294452726840973,
+      "eval_precision": 0.8462682339611953,
+      "eval_recall": 0.7964175304600837,
+      "eval_runtime": 1.7904,
+      "eval_samples_per_second": 222.854,
+      "eval_steps_per_second": 27.927,
       "step": 366
     },
     {
       "epoch": 4.0,
+      "grad_norm": 3.0830881595611572,
       "learning_rate": 4e-05,
+      "loss": 0.2909,
       "step": 488
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8771929824561403,
+      "eval_f1": 0.8499551039516197,
+      "eval_loss": 0.30187976360321045,
+      "eval_precision": 0.8547473867595818,
+      "eval_recall": 0.8456082924168031,
+      "eval_runtime": 1.8,
+      "eval_samples_per_second": 221.672,
+      "eval_steps_per_second": 27.778,
       "step": 488
     },
     {
       "epoch": 5.0,
+      "grad_norm": 2.5169291496276855,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.2584,
       "step": 610
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8696741854636592,
+      "eval_f1": 0.842789598108747,
+      "eval_loss": 0.3023463487625122,
+      "eval_precision": 0.842789598108747,
+      "eval_recall": 0.842789598108747,
+      "eval_runtime": 1.7982,
+      "eval_samples_per_second": 221.888,
+      "eval_steps_per_second": 27.805,
       "step": 610
     },
     {
       "epoch": 6.0,
+      "grad_norm": 1.894607424736023,
       "learning_rate": 3.5e-05,
+      "loss": 0.237,
       "step": 732
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8646616541353384,
+      "eval_f1": 0.8375505157126486,
+      "eval_loss": 0.30203157663345337,
+      "eval_precision": 0.8359243697478991,
+      "eval_recall": 0.8392434988179669,
+      "eval_runtime": 1.7962,
+      "eval_samples_per_second": 222.138,
+      "eval_steps_per_second": 27.837,
       "step": 732
     },
     {
       "epoch": 7.0,
+      "grad_norm": 0.33639559149742126,
       "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2186,
       "step": 854
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8721804511278195,
+      "eval_f1": 0.8491157824491158,
+      "eval_loss": 0.2988818287849426,
+      "eval_precision": 0.8424908424908425,
+      "eval_recall": 0.8570649208947081,
+      "eval_runtime": 1.8005,
+      "eval_samples_per_second": 221.607,
+      "eval_steps_per_second": 27.77,
       "step": 854
     },
     {
       "epoch": 8.0,
+      "grad_norm": 1.405568242073059,
       "learning_rate": 3e-05,
+      "loss": 0.2108,
       "step": 976
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8614765038536611,
+      "eval_loss": 0.29612118005752563,
+      "eval_precision": 0.8686536646744258,
+      "eval_recall": 0.8552009456264775,
+      "eval_runtime": 1.8282,
+      "eval_samples_per_second": 218.244,
+      "eval_steps_per_second": 27.349,
       "step": 976
     },
     {
       "epoch": 9.0,
+      "grad_norm": 6.2904157638549805,
       "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.1898,
       "step": 1098
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.87468671679198,
+      "eval_f1": 0.8480717680029244,
+      "eval_loss": 0.30133265256881714,
+      "eval_precision": 0.8498775260257195,
+      "eval_recall": 0.8463356973995272,
+      "eval_runtime": 1.7951,
+      "eval_samples_per_second": 222.272,
+      "eval_steps_per_second": 27.854,
       "step": 1098
     },
     {
       "epoch": 10.0,
+      "grad_norm": 3.820188522338867,
       "learning_rate": 2.5e-05,
+      "loss": 0.1894,
       "step": 1220
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.87468671679198,
+      "eval_f1": 0.8456742372671576,
+      "eval_loss": 0.32312536239624023,
+      "eval_precision": 0.8536697247706422,
+      "eval_recall": 0.8388343335151845,
+      "eval_runtime": 1.8085,
+      "eval_samples_per_second": 220.63,
+      "eval_steps_per_second": 27.648,
       "step": 1220
     },
     {
       "epoch": 11.0,
+      "grad_norm": 1.6913771629333496,
       "learning_rate": 2.25e-05,
+      "loss": 0.1817,
       "step": 1342
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.8771929824561403,
+      "eval_f1": 0.8514869535493182,
+      "eval_loss": 0.301199346780777,
+      "eval_precision": 0.8523821128305106,
+      "eval_recall": 0.8506092016730314,
+      "eval_runtime": 1.8217,
+      "eval_samples_per_second": 219.025,
+      "eval_steps_per_second": 27.447,
       "step": 1342
     },
     {
       "epoch": 12.0,
+      "grad_norm": 5.912967681884766,
       "learning_rate": 2e-05,
+      "loss": 0.1723,
       "step": 1464
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8646616541353384,
+      "eval_f1": 0.8359175094431583,
+      "eval_loss": 0.29794374108314514,
+      "eval_precision": 0.8376607470912432,
+      "eval_recall": 0.8342425895617385,
+      "eval_runtime": 1.7955,
+      "eval_samples_per_second": 222.218,
+      "eval_steps_per_second": 27.847,
       "step": 1464
     },
     {
       "epoch": 13.0,
+      "grad_norm": 0.4766283929347992,
       "learning_rate": 1.75e-05,
+      "loss": 0.1547,
       "step": 1586
     },
     {
       "epoch": 13.0,
       "eval_accuracy": 0.8696741854636592,
       "eval_f1": 0.8411818738518064,
+      "eval_loss": 0.2937452793121338,
       "eval_precision": 0.8448542607834644,
       "eval_recall": 0.8377886888525186,
+      "eval_runtime": 1.8242,
+      "eval_samples_per_second": 218.73,
+      "eval_steps_per_second": 27.41,
       "step": 1586
     },
     {
       "epoch": 14.0,
+      "grad_norm": 4.687190532684326,
       "learning_rate": 1.5e-05,
+      "loss": 0.1569,
       "step": 1708
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8696741854636592,
+      "eval_f1": 0.8485547445255475,
+      "eval_loss": 0.3064776360988617,
+      "eval_precision": 0.8383458646616542,
+      "eval_recall": 0.8627932351336607,
+      "eval_runtime": 1.7921,
+      "eval_samples_per_second": 222.641,
+      "eval_steps_per_second": 27.9,
       "step": 1708
     },
     {
       "epoch": 15.0,
+      "grad_norm": 4.828568458557129,
       "learning_rate": 1.25e-05,
       "loss": 0.1442,
       "step": 1830
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.8771929824561403,
+      "eval_f1": 0.8529524583135901,
+      "eval_loss": 0.2884095013141632,
+      "eval_precision": 0.8504480286738352,
+      "eval_recall": 0.8556101109292599,
+      "eval_runtime": 1.8008,
+      "eval_samples_per_second": 221.563,
+      "eval_steps_per_second": 27.765,
       "step": 1830
     },
     {
       "epoch": 16.0,
+      "grad_norm": 3.8095035552978516,
       "learning_rate": 1e-05,
+      "loss": 0.1435,
       "step": 1952
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8796992481203008,
+      "eval_f1": 0.8563025210084034,
+      "eval_loss": 0.30156683921813965,
+      "eval_precision": 0.8529936381473334,
+      "eval_recall": 0.8598836152027641,
+      "eval_runtime": 1.8479,
+      "eval_samples_per_second": 215.919,
+      "eval_steps_per_second": 27.058,
       "step": 1952
     },
     {
       "epoch": 17.0,
+      "grad_norm": 0.34168025851249695,
       "learning_rate": 7.5e-06,
+      "loss": 0.1378,
       "step": 2074
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.8771929824561403,
+      "eval_f1": 0.8556962025316456,
+      "eval_loss": 0.31144392490386963,
+      "eval_precision": 0.8477571494464944,
+      "eval_recall": 0.8656119294417166,
+      "eval_runtime": 1.8294,
+      "eval_samples_per_second": 218.106,
+      "eval_steps_per_second": 27.332,
       "step": 2074
     },
     {
       "epoch": 18.0,
+      "grad_norm": 0.2586296498775482,
       "learning_rate": 5e-06,
+      "loss": 0.1377,
       "step": 2196
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.8771929824561403,
+      "eval_f1": 0.8550328105883662,
+      "eval_loss": 0.3096340000629425,
+      "eval_precision": 0.8482905982905984,
+      "eval_recall": 0.8631114748136025,
+      "eval_runtime": 1.8332,
+      "eval_samples_per_second": 217.658,
+      "eval_steps_per_second": 27.275,
       "step": 2196
     },
     {
       "epoch": 19.0,
+      "grad_norm": 0.0663389191031456,
       "learning_rate": 2.5e-06,
+      "loss": 0.1307,
       "step": 2318
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.8796992481203008,
+      "eval_f1": 0.8556004584112431,
+      "eval_loss": 0.30646833777427673,
+      "eval_precision": 0.8538865546218487,
+      "eval_recall": 0.85738316057465,
+      "eval_runtime": 1.8307,
+      "eval_samples_per_second": 217.954,
+      "eval_steps_per_second": 27.313,
       "step": 2318
     },
     {
       "epoch": 20.0,
+      "grad_norm": 3.8260014057159424,
       "learning_rate": 0.0,
+      "loss": 0.126,
       "step": 2440
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8656072933585827,
+      "eval_loss": 0.30540019273757935,
+      "eval_precision": 0.8614399005740664,
+      "eval_recall": 0.8702036733951628,
+      "eval_runtime": 1.8294,
+      "eval_samples_per_second": 218.099,
+      "eval_steps_per_second": 27.331,
       "step": 2440
     },
     {
       "epoch": 20.0,
       "step": 2440,
       "total_flos": 8444128359504000.0,
+      "train_loss": 0.21972156196344095,
+      "train_runtime": 635.9425,
+      "train_samples_per_second": 114.413,
+      "train_steps_per_second": 3.837
     }
   ],
   "logging_steps": 500,