End of training

Browse files

Files changed (7) hide show

README.md +2 -0
all_results.json +13 -13
eval_results.json +9 -9
predict_results.txt +83 -83
runs/May14_19-19-36_indolem-petl-vm/events.out.tfevents.1715717191.indolem-petl-vm.306885.1 +3 -0
train_results.json +5 -5
trainer_state.json +384 -23

README.md CHANGED Viewed

@@ -1,4 +1,6 @@
 ---
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

 ---
+language:
+- id
 license: mit
 base_model: indolem/indobert-base-uncased
 tags:

all_results.json CHANGED Viewed

@@ -1,17 +1,17 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.849624060150376,
-    "eval_f1": 0.8176861216035092,
-    "eval_loss": 0.32215815782546997,
-    "eval_precision": 0.8193355786895284,
-    "eval_recall": 0.8161029278050556,
-    "eval_runtime": 4.9225,
     "eval_samples": 399,
-    "eval_samples_per_second": 81.057,
-    "eval_steps_per_second": 10.158,
-    "train_loss": 0.39131999406658236,
-    "train_runtime": 117.1148,
     "train_samples": 3638,
-    "train_samples_per_second": 31.064,
-    "train_steps_per_second": 1.042
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.9047619047619048,
+    "eval_f1": 0.8878351186601172,
+    "eval_loss": 0.7535876035690308,
+    "eval_precision": 0.879776516905975,
+    "eval_recall": 0.8976177486815784,
+    "eval_runtime": 4.6553,
     "eval_samples": 399,
+    "eval_samples_per_second": 85.708,
+    "eval_steps_per_second": 10.74,
+    "train_loss": 0.06173487283655855,
+    "train_runtime": 2765.1299,
     "train_samples": 3638,
+    "train_samples_per_second": 26.313,
+    "train_steps_per_second": 0.882
 }

eval_results.json CHANGED Viewed

@@ -1,12 +1,12 @@
 {
-    "epoch": 1.0,
-    "eval_accuracy": 0.849624060150376,
-    "eval_f1": 0.8176861216035092,
-    "eval_loss": 0.32215815782546997,
-    "eval_precision": 0.8193355786895284,
-    "eval_recall": 0.8161029278050556,
-    "eval_runtime": 4.9225,
     "eval_samples": 399,
-    "eval_samples_per_second": 81.057,
-    "eval_steps_per_second": 10.158
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.9047619047619048,
+    "eval_f1": 0.8878351186601172,
+    "eval_loss": 0.7535876035690308,
+    "eval_precision": 0.879776516905975,
+    "eval_recall": 0.8976177486815784,
+    "eval_runtime": 4.6553,
     "eval_samples": 399,
+    "eval_samples_per_second": 85.708,
+    "eval_steps_per_second": 10.74
 }

predict_results.txt CHANGED Viewed

@@ -1,20 +1,20 @@
 index	prediction
 0	1
-1	0
 2	1
 3	1
-4	1
 5	1
 6	1
 7	1
 8	0
-9	0
 10	1
 11	1
 12	1
 13	1
 14	1
-15	1
 16	1
 17	1
 18	1
@@ -23,12 +23,12 @@ index	prediction
 21	1
 22	1
 23	1
-24	1
-25	0
 26	1
-27	0
 28	1
-29	0
 30	1
 31	1
 32	1
@@ -38,20 +38,20 @@ index	prediction
 36	1
 37	1
 38	1
-39	0
 40	1
 41	1
 42	1
-43	0
-44	0
-45	0
-46	0
 47	1
 48	1
 49	0
 50	1
 51	1
-52	0
 53	1
 54	1
 55	1
@@ -63,7 +63,7 @@ index	prediction
 61	1
 62	1
 63	1
-64	0
 65	1
 66	1
 67	1
@@ -78,8 +78,8 @@ index	prediction
 76	1
 77	0
 78	1
-79	0
-80	0
 81	0
 82	1
 83	1
@@ -91,7 +91,7 @@ index	prediction
 89	1
 90	1
 91	1
-92	0
 93	1
 94	1
 95	1
@@ -104,7 +104,7 @@ index	prediction
 102	1
 103	1
 104	1
-105	0
 106	1
 107	1
 108	1
@@ -112,7 +112,7 @@ index	prediction
 110	1
 111	1
 112	1
-113	1
 114	1
 115	1
 116	1
@@ -143,12 +143,12 @@ index	prediction
 141	1
 142	1
 143	1
-144	0
 145	1
 146	1
 147	1
 148	1
-149	0
 150	1
 151	1
 152	1
@@ -163,24 +163,24 @@ index	prediction
 161	1
 162	1
 163	1
-164	0
 165	0
 166	1
 167	1
 168	1
-169	0
-170	0
 171	1
-172	0
 173	0
 174	1
 175	1
-176	0
 177	0
 178	1
 179	1
 180	1
-181	1
 182	1
 183	1
 184	1
@@ -189,7 +189,7 @@ index	prediction
 187	1
 188	1
 189	1
-190	0
 191	1
 192	1
 193	1
@@ -197,7 +197,7 @@ index	prediction
 195	1
 196	1
 197	1
-198	0
 199	0
 200	1
 201	1
@@ -209,15 +209,15 @@ index	prediction
 207	1
 208	1
 209	1
-210	0
 211	1
 212	1
 213	1
 214	0
 215	1
 216	0
-217	1
-218	0
 219	1
 220	0
 221	1
@@ -227,11 +227,11 @@ index	prediction
 225	1
 226	0
 227	0
-228	0
-229	0
-230	0
 231	1
-232	0
 233	1
 234	1
 235	1
@@ -245,10 +245,10 @@ index	prediction
 243	1
 244	1
 245	1
-246	1
 247	1
-248	0
-249	1
 250	0
 251	1
 252	1
@@ -296,7 +296,7 @@ index	prediction
 294	1
 295	1
 296	1
-297	1
 298	0
 299	0
 300	0
@@ -316,7 +316,7 @@ index	prediction
 314	0
 315	0
 316	0
-317	1
 318	1
 319	0
 320	0
@@ -327,17 +327,17 @@ index	prediction
 325	0
 326	0
 327	0
-328	0
 329	0
 330	1
-331	0
 332	0
 333	0
 334	0
 335	0
 336	0
 337	0
-338	0
 339	0
 340	0
 341	0
@@ -350,7 +350,7 @@ index	prediction
 348	0
 349	0
 350	0
-351	1
 352	0
 353	0
 354	0
@@ -363,9 +363,9 @@ index	prediction
 361	0
 362	0
 363	0
-364	0
 365	0
-366	0
 367	0
 368	0
 369	0
@@ -375,7 +375,7 @@ index	prediction
 373	0
 374	0
 375	0
-376	1
 377	0
 378	0
 379	0
@@ -400,8 +400,8 @@ index	prediction
 398	1
 399	0
 400	0
-401	1
-402	0
 403	0
 404	0
 405	0
@@ -419,7 +419,7 @@ index	prediction
 417	0
 418	0
 419	0
-420	0
 421	0
 422	0
 423	0
@@ -446,12 +446,12 @@ index	prediction
 444	0
 445	0
 446	0
-447	0
 448	0
 449	0
 450	0
 451	0
-452	1
 453	0
 454	0
 455	0
@@ -517,7 +517,7 @@ index	prediction
 515	0
 516	0
 517	0
-518	1
 519	0
 520	0
 521	0
@@ -535,13 +535,13 @@ index	prediction
 533	0
 534	0
 535	0
-536	0
 537	0
 538	0
 539	0
 540	0
 541	0
-542	1
 543	0
 544	0
 545	0
@@ -587,7 +587,7 @@ index	prediction
 585	0
 586	0
 587	0
-588	1
 589	0
 590	0
 591	0
@@ -595,7 +595,7 @@ index	prediction
 593	0
 594	0
 595	0
-596	1
 597	0
 598	0
 599	0
@@ -607,10 +607,10 @@ index	prediction
 605	0
 606	0
 607	0
-608	0
 609	0
 610	1
-611	1
 612	0
 613	0
 614	0
@@ -631,10 +631,10 @@ index	prediction
 629	0
 630	0
 631	0
-632	0
 633	1
 634	0
-635	1
 636	0
 637	0
 638	0
@@ -662,7 +662,7 @@ index	prediction
 660	0
 661	0
 662	0
-663	0
 664	0
 665	0
 666	0
@@ -702,7 +702,7 @@ index	prediction
 700	0
 701	0
 702	0
-703	0
 704	0
 705	0
 706	0
@@ -751,7 +751,7 @@ index	prediction
 749	0
 750	0
 751	0
-752	0
 753	0
 754	0
 755	0
@@ -764,12 +764,12 @@ index	prediction
 762	0
 763	0
 764	0
-765	1
 766	0
 767	0
 768	0
 769	0
-770	0
 771	0
 772	0
 773	0
@@ -794,7 +794,7 @@ index	prediction
 792	0
 793	0
 794	0
-795	0
 796	0
 797	0
 798	0
@@ -808,7 +808,7 @@ index	prediction
 806	0
 807	0
 808	0
-809	1
 810	0
 811	0
 812	0
@@ -864,10 +864,10 @@ index	prediction
 862	0
 863	0
 864	0
-865	1
 866	0
 867	0
-868	0
 869	0
 870	0
 871	0
@@ -883,20 +883,20 @@ index	prediction
 881	0
 882	0
 883	0
-884	1
 885	0
 886	0
 887	0
 888	0
 889	0
 890	0
-891	0
 892	0
 893	0
-894	1
 895	0
 896	0
-897	1
 898	0
 899	0
 900	0
@@ -906,7 +906,7 @@ index	prediction
 904	0
 905	0
 906	0
-907	0
 908	0
 909	0
 910	0
@@ -949,12 +949,12 @@ index	prediction
 947	0
 948	0
 949	0
-950	1
 951	0
 952	0
 953	0
 954	0
-955	0
 956	0
 957	0
 958	0
@@ -962,13 +962,13 @@ index	prediction
 960	0
 961	0
 962	0
-963	0
 964	0
 965	0
 966	0
 967	0
 968	0
-969	1
 970	0
 971	0
 972	0
@@ -985,13 +985,13 @@ index	prediction
 983	0
 984	0
 985	0
-986	0
 987	0
 988	0
 989	0
 990	0
 991	1
-992	1
 993	0
 994	0
 995	0

 index	prediction
 0	1
+1	1
 2	1
 3	1
+4	0
 5	1
 6	1
 7	1
 8	0
+9	1
 10	1
 11	1
 12	1
 13	1
 14	1
+15	0
 16	1
 17	1
 18	1
 21	1
 22	1
 23	1
+24	0
+25	1
 26	1
+27	1
 28	1
+29	1
 30	1
 31	1
 32	1
 36	1
 37	1
 38	1
+39	1
 40	1
 41	1
 42	1
+43	1
+44	1
+45	1
+46	1
 47	1
 48	1
 49	0
 50	1
 51	1
+52	1
 53	1
 54	1
 55	1
 61	1
 62	1
 63	1
+64	1
 65	1
 66	1
 67	1
 76	1
 77	0
 78	1
+79	1
+80	1
 81	0
 82	1
 83	1
 89	1
 90	1
 91	1
+92	1
 93	1
 94	1
 95	1
 102	1
 103	1
 104	1
+105	1
 106	1
 107	1
 108	1
 110	1
 111	1
 112	1
+113	0
 114	1
 115	1
 116	1
 141	1
 142	1
 143	1
+144	1
 145	1
 146	1
 147	1
 148	1
+149	1
 150	1
 151	1
 152	1
 161	1
 162	1
 163	1
+164	1
 165	0
 166	1
 167	1
 168	1
+169	1
+170	1
 171	1
+172	1
 173	0
 174	1
 175	1
+176	1
 177	0
 178	1
 179	1
 180	1
+181	0
 182	1
 183	1
 184	1
 187	1
 188	1
 189	1
+190	1
 191	1
 192	1
 193	1
 195	1
 196	1
 197	1
+198	1
 199	0
 200	1
 201	1
 207	1
 208	1
 209	1
+210	1
 211	1
 212	1
 213	1
 214	0
 215	1
 216	0
+217	0
+218	1
 219	1
 220	0
 221	1
 225	1
 226	0
 227	0
+228	1
+229	1
+230	1
 231	1
+232	1
 233	1
 234	1
 235	1
 243	1
 244	1
 245	1
+246	0
 247	1
+248	1
+249	0
 250	0
 251	1
 252	1
 294	1
 295	1
 296	1
+297	0
 298	0
 299	0
 300	0
 314	0
 315	0
 316	0
+317	0
 318	1
 319	0
 320	0
 325	0
 326	0
 327	0
+328	1
 329	0
 330	1
+331	1
 332	0
 333	0
 334	0
 335	0
 336	0
 337	0
+338	1
 339	0
 340	0
 341	0
 348	0
 349	0
 350	0
+351	0
 352	0
 353	0
 354	0
 361	0
 362	0
 363	0
+364	1
 365	0
+366	1
 367	0
 368	0
 369	0
 373	0
 374	0
 375	0
+376	0
 377	0
 378	0
 379	0
 398	1
 399	0
 400	0
+401	0
+402	1
 403	0
 404	0
 405	0
 417	0
 418	0
 419	0
+420	1
 421	0
 422	0
 423	0
 444	0
 445	0
 446	0
+447	1
 448	0
 449	0
 450	0
 451	0
+452	0
 453	0
 454	0
 455	0
 515	0
 516	0
 517	0
+518	0
 519	0
 520	0
 521	0
 533	0
 534	0
 535	0
+536	1
 537	0
 538	0
 539	0
 540	0
 541	0
+542	0
 543	0
 544	0
 545	0
 585	0
 586	0
 587	0
+588	0
 589	0
 590	0
 591	0
 593	0
 594	0
 595	0
+596	0
 597	0
 598	0
 599	0
 605	0
 606	0
 607	0
+608	1
 609	0
 610	1
+611	0
 612	0
 613	0
 614	0
 629	0
 630	0
 631	0
+632	1
 633	1
 634	0
+635	0
 636	0
 637	0
 638	0
 660	0
 661	0
 662	0
+663	1
 664	0
 665	0
 666	0
 700	0
 701	0
 702	0
+703	1
 704	0
 705	0
 706	0
 749	0
 750	0
 751	0
+752	1
 753	0
 754	0
 755	0
 762	0
 763	0
 764	0
+765	0
 766	0
 767	0
 768	0
 769	0
+770	1
 771	0
 772	0
 773	0
 792	0
 793	0
 794	0
+795	1
 796	0
 797	0
 798	0
 806	0
 807	0
 808	0
+809	0
 810	0
 811	0
 812	0
 862	0
 863	0
 864	0
+865	0
 866	0
 867	0
+868	1
 869	0
 870	0
 871	0
 881	0
 882	0
 883	0
+884	0
 885	0
 886	0
 887	0
 888	0
 889	0
 890	0
+891	1
 892	0
 893	0
+894	0
 895	0
 896	0
+897	0
 898	0
 899	0
 900	0
 904	0
 905	0
 906	0
+907	1
 908	0
 909	0
 910	0
 947	0
 948	0
 949	0
+950	0
 951	0
 952	0
 953	0
 954	0
+955	1
 956	0
 957	0
 958	0
 960	0
 961	0
 962	0
+963	1
 964	0
 965	0
 966	0
 967	0
 968	0
+969	0
 970	0
 971	0
 972	0
 983	0
 984	0
 985	0
+986	1
 987	0
 988	0
 989	0
 990	0
 991	1
+992	0
 993	0
 994	0
 995	0

runs/May14_19-19-36_indolem-petl-vm/events.out.tfevents.1715717191.indolem-petl-vm.306885.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da2f2a468694ab3e44b6d4566861949e44aa1ddbbce5c0833bc08516b0b806de
+size 560

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 1.0,
-    "train_loss": 0.39131999406658236,
-    "train_runtime": 117.1148,
     "train_samples": 3638,
-    "train_samples_per_second": 31.064,
-    "train_steps_per_second": 1.042
 }

 {
+    "epoch": 20.0,
+    "train_loss": 0.06173487283655855,
+    "train_runtime": 2765.1299,
     "train_samples": 3638,
+    "train_samples_per_second": 26.313,
+    "train_steps_per_second": 0.882
 }

trainer_state.json CHANGED Viewed

@@ -1,48 +1,409 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 122,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 11.240641593933105,
-      "learning_rate": 0.0,
-      "loss": 0.3913,
       "step": 122
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.849624060150376,
-      "eval_f1": 0.8176861216035092,
-      "eval_loss": 0.32215815782546997,
-      "eval_precision": 0.8193355786895284,
-      "eval_recall": 0.8161029278050556,
-      "eval_runtime": 4.8398,
-      "eval_samples_per_second": 82.441,
-      "eval_steps_per_second": 10.331,
       "step": 122
     },
     {
-      "epoch": 1.0,
-      "step": 122,
-      "total_flos": 379208121808800.0,
-      "train_loss": 0.39131999406658236,
-      "train_runtime": 117.1148,
-      "train_samples_per_second": 31.064,
-      "train_steps_per_second": 1.042
     }
   ],
   "logging_steps": 500,
-  "max_steps": 122,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
-  "total_flos": 379208121808800.0,
   "train_batch_size": 30,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 500,
+  "global_step": 2440,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 4.053804397583008,
+      "learning_rate": 4.75e-05,
+      "loss": 0.4355,
       "step": 122
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8696741854636592,
+      "eval_f1": 0.835906358747232,
+      "eval_loss": 0.3243214786052704,
+      "eval_precision": 0.853844109243139,
+      "eval_recall": 0.8227859610838335,
+      "eval_runtime": 4.9832,
+      "eval_samples_per_second": 80.069,
+      "eval_steps_per_second": 10.034,
       "step": 122
     },
     {
+      "epoch": 2.0,
+      "grad_norm": 23.150257110595703,
+      "learning_rate": 4.5e-05,
+      "loss": 0.2295,
+      "step": 244
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8701248742380304,
+      "eval_loss": 0.3046626150608063,
+      "eval_precision": 0.8624507874015748,
+      "eval_recall": 0.8794780869248955,
+      "eval_runtime": 4.975,
+      "eval_samples_per_second": 80.2,
+      "eval_steps_per_second": 10.05,
+      "step": 244
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.44390636682510376,
+      "learning_rate": 4.25e-05,
+      "loss": 0.1337,
+      "step": 366
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.879667048676036,
+      "eval_loss": 0.3747338354587555,
+      "eval_precision": 0.8778361344537815,
+      "eval_recall": 0.8815693762502272,
+      "eval_runtime": 4.9774,
+      "eval_samples_per_second": 80.162,
+      "eval_steps_per_second": 10.045,
+      "step": 366
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 15.949886322021484,
+      "learning_rate": 4e-05,
+      "loss": 0.1038,
+      "step": 488
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8822055137844611,
+      "eval_f1": 0.8651222336500356,
+      "eval_loss": 0.41882890462875366,
+      "eval_precision": 0.8518339768339769,
+      "eval_recall": 0.8866612111292962,
+      "eval_runtime": 5.0099,
+      "eval_samples_per_second": 79.643,
+      "eval_steps_per_second": 9.98,
+      "step": 488
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.7783217430114746,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.072,
+      "step": 610
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8622036668943447,
+      "eval_loss": 0.6270534992218018,
+      "eval_precision": 0.8671602787456446,
+      "eval_recall": 0.8577014002545917,
+      "eval_runtime": 5.0204,
+      "eval_samples_per_second": 79.476,
+      "eval_steps_per_second": 9.959,
+      "step": 610
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 44.57243347167969,
+      "learning_rate": 3.5e-05,
+      "loss": 0.0462,
+      "step": 732
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8695225637671682,
+      "eval_loss": 0.6129250526428223,
+      "eval_precision": 0.8631532846715328,
+      "eval_recall": 0.8769776322967813,
+      "eval_runtime": 4.9643,
+      "eval_samples_per_second": 80.375,
+      "eval_steps_per_second": 10.072,
+      "step": 732
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.024074144661426544,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.0459,
+      "step": 854
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.8897243107769424,
+      "eval_f1": 0.8649122807017544,
+      "eval_loss": 0.5890637636184692,
+      "eval_precision": 0.8710116366366366,
+      "eval_recall": 0.8594744498999818,
+      "eval_runtime": 4.9832,
+      "eval_samples_per_second": 80.069,
+      "eval_steps_per_second": 10.034,
+      "step": 854
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.022918157279491425,
+      "learning_rate": 3e-05,
+      "loss": 0.0391,
+      "step": 976
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.8872180451127819,
+      "eval_f1": 0.8680720368560659,
+      "eval_loss": 0.5972921252250671,
+      "eval_precision": 0.8587217615098657,
+      "eval_recall": 0.8802054919076197,
+      "eval_runtime": 5.0003,
+      "eval_samples_per_second": 79.795,
+      "eval_steps_per_second": 9.999,
+      "step": 976
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 106.23094177246094,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.0307,
+      "step": 1098
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.87468671679198,
+      "eval_f1": 0.8584865509022812,
+      "eval_loss": 0.7086873054504395,
+      "eval_precision": 0.8441043083900227,
+      "eval_recall": 0.8863429714493545,
+      "eval_runtime": 4.9859,
+      "eval_samples_per_second": 80.026,
+      "eval_steps_per_second": 10.028,
+      "step": 1098
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.024997469037771225,
+      "learning_rate": 2.5e-05,
+      "loss": 0.0199,
+      "step": 1220
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8717112228173498,
+      "eval_loss": 0.7264124155044556,
+      "eval_precision": 0.8869295958279009,
+      "eval_recall": 0.8597926895799237,
+      "eval_runtime": 4.9651,
+      "eval_samples_per_second": 80.361,
+      "eval_steps_per_second": 10.07,
+      "step": 1220
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.004392046481370926,
+      "learning_rate": 2.25e-05,
+      "loss": 0.0105,
+      "step": 1342
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8757339815412664,
+      "eval_loss": 0.6738360524177551,
+      "eval_precision": 0.8766906299500427,
+      "eval_recall": 0.8747954173486088,
+      "eval_runtime": 5.0179,
+      "eval_samples_per_second": 79.516,
+      "eval_steps_per_second": 9.964,
+      "step": 1342
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.004026818089187145,
+      "learning_rate": 2e-05,
+      "loss": 0.0131,
+      "step": 1464
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.899749373433584,
+      "eval_f1": 0.882467302933899,
+      "eval_loss": 0.7488105297088623,
+      "eval_precision": 0.8732988802756245,
+      "eval_recall": 0.8940716493907983,
+      "eval_runtime": 5.0007,
+      "eval_samples_per_second": 79.788,
+      "eval_steps_per_second": 9.999,
+      "step": 1464
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.004543425515294075,
+      "learning_rate": 1.75e-05,
+      "loss": 0.0102,
+      "step": 1586
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.8972431077694235,
+      "eval_f1": 0.8792560061999484,
+      "eval_loss": 0.7154756784439087,
+      "eval_precision": 0.8707622232472325,
+      "eval_recall": 0.889798145117294,
+      "eval_runtime": 5.0136,
+      "eval_samples_per_second": 79.584,
+      "eval_steps_per_second": 9.973,
+      "step": 1586
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.0037931231781840324,
+      "learning_rate": 1.5e-05,
+      "loss": 0.0061,
+      "step": 1708
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.9072681704260651,
+      "eval_f1": 0.8894993300948346,
+      "eval_loss": 0.7196279168128967,
+      "eval_precision": 0.8850535598035154,
+      "eval_recall": 0.8943898890707401,
+      "eval_runtime": 5.009,
+      "eval_samples_per_second": 79.657,
+      "eval_steps_per_second": 9.982,
+      "step": 1708
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.0027608012314885855,
+      "learning_rate": 1.25e-05,
+      "loss": 0.0138,
+      "step": 1830
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.9022556390977443,
+      "eval_f1": 0.884617951284618,
+      "eval_loss": 0.7618029713630676,
+      "eval_precision": 0.8772893772893773,
+      "eval_recall": 0.8933442444080741,
+      "eval_runtime": 5.0251,
+      "eval_samples_per_second": 79.401,
+      "eval_steps_per_second": 9.95,
+      "step": 1830
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.0022813216783106327,
+      "learning_rate": 1e-05,
+      "loss": 0.0075,
+      "step": 1952
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.9047619047619048,
+      "eval_f1": 0.8873149414352814,
+      "eval_loss": 0.7252941727638245,
+      "eval_precision": 0.8806277372262774,
+      "eval_recall": 0.8951172940534643,
+      "eval_runtime": 5.0138,
+      "eval_samples_per_second": 79.581,
+      "eval_steps_per_second": 9.973,
+      "step": 1952
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 15.638340950012207,
+      "learning_rate": 7.5e-06,
+      "loss": 0.0063,
+      "step": 2074
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.9022556390977443,
+      "eval_f1": 0.8840781602687784,
+      "eval_loss": 0.7560042142868042,
+      "eval_precision": 0.87816715542522,
+      "eval_recall": 0.89084378977996,
+      "eval_runtime": 5.0052,
+      "eval_samples_per_second": 79.718,
+      "eval_steps_per_second": 9.99,
+      "step": 2074
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.002121408935636282,
+      "learning_rate": 5e-06,
+      "loss": 0.0066,
+      "step": 2196
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.9022556390977443,
+      "eval_f1": 0.8856624319419237,
+      "eval_loss": 0.748332142829895,
+      "eval_precision": 0.8758364312267658,
+      "eval_recall": 0.8983451536643026,
+      "eval_runtime": 4.9788,
+      "eval_samples_per_second": 80.139,
+      "eval_steps_per_second": 10.043,
+      "step": 2196
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.004570267163217068,
+      "learning_rate": 2.5e-06,
+      "loss": 0.0023,
+      "step": 2318
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.9022556390977443,
+      "eval_f1": 0.884617951284618,
+      "eval_loss": 0.7535205483436584,
+      "eval_precision": 0.8772893772893773,
+      "eval_recall": 0.8933442444080741,
+      "eval_runtime": 5.0013,
+      "eval_samples_per_second": 79.779,
+      "eval_steps_per_second": 9.997,
+      "step": 2318
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.0018295175395905972,
+      "learning_rate": 0.0,
+      "loss": 0.0021,
+      "step": 2440
+    },
+    {
+      "epoch": 20.0,
+      "eval_accuracy": 0.9047619047619048,
+      "eval_f1": 0.8878351186601172,
+      "eval_loss": 0.7535876035690308,
+      "eval_precision": 0.879776516905975,
+      "eval_recall": 0.8976177486815784,
+      "eval_runtime": 5.0187,
+      "eval_samples_per_second": 79.503,
+      "eval_steps_per_second": 9.963,
+      "step": 2440
+    },
+    {
+      "epoch": 20.0,
+      "step": 2440,
+      "total_flos": 7584162436176000.0,
+      "train_loss": 0.06173487283655855,
+      "train_runtime": 2765.1299,
+      "train_samples_per_second": 26.313,
+      "train_steps_per_second": 0.882
     }
   ],
   "logging_steps": 500,
+  "max_steps": 2440,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 7584162436176000.0,
   "train_batch_size": 30,
   "trial_name": null,
   "trial_params": null