End of training

Browse files

Files changed (6) hide show

README.md +203 -203
all_results.json +9 -9
eval_results.json +5 -5
pytorch_model.bin +1 -1
train_results.json +4 -4
trainer_state.json +1035 -1035

README.md CHANGED Viewed

@@ -22,7 +22,7 @@ model-index:
     metrics:
     - name: Accuracy
       type: accuracy
-      value: 0.8142857142857143
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -32,8 +32,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6875
-- Accuracy: 0.8143
 ## Model description
@@ -67,206 +67,206 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| No log        | 1.0   | 2    | 1.0694          | 0.4143   |
-| No log        | 2.0   | 4    | 1.0689          | 0.4143   |
-| No log        | 3.0   | 6    | 1.0682          | 0.4143   |
-| No log        | 4.0   | 8    | 1.0671          | 0.4143   |
-| 1.096         | 5.0   | 10   | 1.0657          | 0.4286   |
-| 1.096         | 6.0   | 12   | 1.0640          | 0.4286   |
-| 1.096         | 7.0   | 14   | 1.0621          | 0.4143   |
-| 1.096         | 8.0   | 16   | 1.0598          | 0.4      |
-| 1.096         | 9.0   | 18   | 1.0572          | 0.4      |
-| 1.0906        | 10.0  | 20   | 1.0545          | 0.4      |
-| 1.0906        | 11.0  | 22   | 1.0517          | 0.4143   |
-| 1.0906        | 12.0  | 24   | 1.0486          | 0.4143   |
-| 1.0906        | 13.0  | 26   | 1.0453          | 0.4143   |
-| 1.0906        | 14.0  | 28   | 1.0418          | 0.4143   |
-| 1.0647        | 15.0  | 30   | 1.0380          | 0.4143   |
-| 1.0647        | 16.0  | 32   | 1.0343          | 0.4143   |
-| 1.0647        | 17.0  | 34   | 1.0307          | 0.4143   |
-| 1.0647        | 18.0  | 36   | 1.0268          | 0.4286   |
-| 1.0647        | 19.0  | 38   | 1.0229          | 0.4286   |
-| 1.0451        | 20.0  | 40   | 1.0191          | 0.4429   |
-| 1.0451        | 21.0  | 42   | 1.0153          | 0.4571   |
-| 1.0451        | 22.0  | 44   | 1.0116          | 0.4714   |
-| 1.0451        | 23.0  | 46   | 1.0082          | 0.4714   |
-| 1.0451        | 24.0  | 48   | 1.0049          | 0.4714   |
-| 1.037         | 25.0  | 50   | 1.0016          | 0.4714   |
-| 1.037         | 26.0  | 52   | 0.9979          | 0.4714   |
-| 1.037         | 27.0  | 54   | 0.9944          | 0.4714   |
-| 1.037         | 28.0  | 56   | 0.9913          | 0.4714   |
-| 1.037         | 29.0  | 58   | 0.9883          | 0.4714   |
-| 1.0214        | 30.0  | 60   | 0.9847          | 0.4714   |
-| 1.0214        | 31.0  | 62   | 0.9809          | 0.4571   |
-| 1.0214        | 32.0  | 64   | 0.9768          | 0.4714   |
-| 1.0214        | 33.0  | 66   | 0.9723          | 0.4714   |
-| 1.0214        | 34.0  | 68   | 0.9671          | 0.4714   |
-| 1.0181        | 35.0  | 70   | 0.9616          | 0.4714   |
-| 1.0181        | 36.0  | 72   | 0.9561          | 0.4857   |
-| 1.0181        | 37.0  | 74   | 0.9505          | 0.5      |
-| 1.0181        | 38.0  | 76   | 0.9446          | 0.5286   |
-| 1.0181        | 39.0  | 78   | 0.9388          | 0.5286   |
-| 0.9646        | 40.0  | 80   | 0.9331          | 0.5286   |
-| 0.9646        | 41.0  | 82   | 0.9276          | 0.5143   |
-| 0.9646        | 42.0  | 84   | 0.9224          | 0.5286   |
-| 0.9646        | 43.0  | 86   | 0.9172          | 0.5286   |
-| 0.9646        | 44.0  | 88   | 0.9120          | 0.5286   |
-| 0.946         | 45.0  | 90   | 0.9070          | 0.5143   |
-| 0.946         | 46.0  | 92   | 0.9021          | 0.5286   |
-| 0.946         | 47.0  | 94   | 0.8976          | 0.5429   |
-| 0.946         | 48.0  | 96   | 0.8933          | 0.5429   |
-| 0.946         | 49.0  | 98   | 0.8891          | 0.5714   |
-| 0.9244        | 50.0  | 100  | 0.8846          | 0.5714   |
-| 0.9244        | 51.0  | 102  | 0.8803          | 0.5714   |
-| 0.9244        | 52.0  | 104  | 0.8759          | 0.5714   |
-| 0.9244        | 53.0  | 106  | 0.8716          | 0.5714   |
-| 0.9244        | 54.0  | 108  | 0.8674          | 0.5714   |
-| 0.9228        | 55.0  | 110  | 0.8634          | 0.5857   |
-| 0.9228        | 56.0  | 112  | 0.8598          | 0.6      |
-| 0.9228        | 57.0  | 114  | 0.8562          | 0.5857   |
-| 0.9228        | 58.0  | 116  | 0.8527          | 0.6      |
-| 0.9228        | 59.0  | 118  | 0.8492          | 0.6      |
-| 0.8956        | 60.0  | 120  | 0.8456          | 0.6143   |
-| 0.8956        | 61.0  | 122  | 0.8421          | 0.6      |
-| 0.8956        | 62.0  | 124  | 0.8385          | 0.6      |
-| 0.8956        | 63.0  | 126  | 0.8351          | 0.6      |
-| 0.8956        | 64.0  | 128  | 0.8318          | 0.6143   |
-| 0.8943        | 65.0  | 130  | 0.8286          | 0.6143   |
-| 0.8943        | 66.0  | 132  | 0.8255          | 0.6      |
-| 0.8943        | 67.0  | 134  | 0.8223          | 0.6286   |
-| 0.8943        | 68.0  | 136  | 0.8191          | 0.6429   |
-| 0.8943        | 69.0  | 138  | 0.8159          | 0.6286   |
-| 0.854         | 70.0  | 140  | 0.8129          | 0.6429   |
-| 0.854         | 71.0  | 142  | 0.8100          | 0.6714   |
-| 0.854         | 72.0  | 144  | 0.8073          | 0.6714   |
-| 0.854         | 73.0  | 146  | 0.8048          | 0.6571   |
-| 0.854         | 74.0  | 148  | 0.8025          | 0.6714   |
-| 0.8615        | 75.0  | 150  | 0.8001          | 0.6571   |
-| 0.8615        | 76.0  | 152  | 0.7976          | 0.6571   |
-| 0.8615        | 77.0  | 154  | 0.7952          | 0.6571   |
-| 0.8615        | 78.0  | 156  | 0.7928          | 0.6571   |
-| 0.8615        | 79.0  | 158  | 0.7904          | 0.6571   |
-| 0.8507        | 80.0  | 160  | 0.7882          | 0.6714   |
-| 0.8507        | 81.0  | 162  | 0.7858          | 0.6714   |
-| 0.8507        | 82.0  | 164  | 0.7835          | 0.6857   |
-| 0.8507        | 83.0  | 166  | 0.7811          | 0.6857   |
-| 0.8507        | 84.0  | 168  | 0.7788          | 0.6857   |
-| 0.838         | 85.0  | 170  | 0.7765          | 0.6857   |
-| 0.838         | 86.0  | 172  | 0.7743          | 0.6857   |
-| 0.838         | 87.0  | 174  | 0.7723          | 0.6857   |
-| 0.838         | 88.0  | 176  | 0.7703          | 0.6857   |
-| 0.838         | 89.0  | 178  | 0.7684          | 0.6857   |
-| 0.8245        | 90.0  | 180  | 0.7664          | 0.6857   |
-| 0.8245        | 91.0  | 182  | 0.7644          | 0.6857   |
-| 0.8245        | 92.0  | 184  | 0.7625          | 0.6857   |
-| 0.8245        | 93.0  | 186  | 0.7606          | 0.7143   |
-| 0.8245        | 94.0  | 188  | 0.7587          | 0.7143   |
-| 0.8124        | 95.0  | 190  | 0.7569          | 0.7143   |
-| 0.8124        | 96.0  | 192  | 0.7551          | 0.7286   |
-| 0.8124        | 97.0  | 194  | 0.7533          | 0.7286   |
-| 0.8124        | 98.0  | 196  | 0.7517          | 0.7286   |
-| 0.8124        | 99.0  | 198  | 0.7500          | 0.7429   |
-| 0.8102        | 100.0 | 200  | 0.7483          | 0.7429   |
-| 0.8102        | 101.0 | 202  | 0.7465          | 0.7429   |
-| 0.8102        | 102.0 | 204  | 0.7450          | 0.7429   |
-| 0.8102        | 103.0 | 206  | 0.7434          | 0.7429   |
-| 0.8102        | 104.0 | 208  | 0.7419          | 0.7429   |
-| 0.821         | 105.0 | 210  | 0.7404          | 0.7571   |
-| 0.821         | 106.0 | 212  | 0.7389          | 0.7571   |
-| 0.821         | 107.0 | 214  | 0.7374          | 0.7571   |
-| 0.821         | 108.0 | 216  | 0.7359          | 0.7571   |
-| 0.821         | 109.0 | 218  | 0.7345          | 0.7571   |
-| 0.7918        | 110.0 | 220  | 0.7330          | 0.7571   |
-| 0.7918        | 111.0 | 222  | 0.7316          | 0.7571   |
-| 0.7918        | 112.0 | 224  | 0.7302          | 0.7571   |
-| 0.7918        | 113.0 | 226  | 0.7289          | 0.7571   |
-| 0.7918        | 114.0 | 228  | 0.7275          | 0.7571   |
-| 0.8063        | 115.0 | 230  | 0.7262          | 0.7714   |
-| 0.8063        | 116.0 | 232  | 0.7247          | 0.7714   |
-| 0.8063        | 117.0 | 234  | 0.7232          | 0.7571   |
-| 0.8063        | 118.0 | 236  | 0.7218          | 0.7571   |
-| 0.8063        | 119.0 | 238  | 0.7204          | 0.7571   |
-| 0.7897        | 120.0 | 240  | 0.7192          | 0.7571   |
-| 0.7897        | 121.0 | 242  | 0.7180          | 0.7571   |
-| 0.7897        | 122.0 | 244  | 0.7168          | 0.7571   |
-| 0.7897        | 123.0 | 246  | 0.7158          | 0.7571   |
-| 0.7897        | 124.0 | 248  | 0.7149          | 0.7714   |
-| 0.7845        | 125.0 | 250  | 0.7140          | 0.7571   |
-| 0.7845        | 126.0 | 252  | 0.7131          | 0.7571   |
-| 0.7845        | 127.0 | 254  | 0.7121          | 0.7571   |
-| 0.7845        | 128.0 | 256  | 0.7110          | 0.7571   |
-| 0.7845        | 129.0 | 258  | 0.7099          | 0.7571   |
-| 0.7781        | 130.0 | 260  | 0.7088          | 0.7571   |
-| 0.7781        | 131.0 | 262  | 0.7076          | 0.7571   |
-| 0.7781        | 132.0 | 264  | 0.7066          | 0.7571   |
-| 0.7781        | 133.0 | 266  | 0.7055          | 0.7571   |
-| 0.7781        | 134.0 | 268  | 0.7045          | 0.7714   |
-| 0.7708        | 135.0 | 270  | 0.7034          | 0.7714   |
-| 0.7708        | 136.0 | 272  | 0.7025          | 0.7571   |
-| 0.7708        | 137.0 | 274  | 0.7016          | 0.7571   |
-| 0.7708        | 138.0 | 276  | 0.7008          | 0.7571   |
-| 0.7708        | 139.0 | 278  | 0.6999          | 0.7571   |
-| 0.797         | 140.0 | 280  | 0.6990          | 0.7571   |
-| 0.797         | 141.0 | 282  | 0.6981          | 0.7714   |
-| 0.797         | 142.0 | 284  | 0.6973          | 0.7714   |
-| 0.797         | 143.0 | 286  | 0.6966          | 0.7714   |
-| 0.797         | 144.0 | 288  | 0.6959          | 0.7714   |
-| 0.7768        | 145.0 | 290  | 0.6952          | 0.7714   |
-| 0.7768        | 146.0 | 292  | 0.6944          | 0.7714   |
-| 0.7768        | 147.0 | 294  | 0.6936          | 0.7714   |
-| 0.7768        | 148.0 | 296  | 0.6928          | 0.7857   |
-| 0.7768        | 149.0 | 298  | 0.6920          | 0.7857   |
-| 0.7569        | 150.0 | 300  | 0.6912          | 0.7857   |
-| 0.7569        | 151.0 | 302  | 0.6904          | 0.8      |
-| 0.7569        | 152.0 | 304  | 0.6897          | 0.8      |
-| 0.7569        | 153.0 | 306  | 0.6890          | 0.8      |
-| 0.7569        | 154.0 | 308  | 0.6882          | 0.8      |
-| 0.7807        | 155.0 | 310  | 0.6875          | 0.8143   |
-| 0.7807        | 156.0 | 312  | 0.6868          | 0.8143   |
-| 0.7807        | 157.0 | 314  | 0.6861          | 0.8143   |
-| 0.7807        | 158.0 | 316  | 0.6854          | 0.8143   |
-| 0.7807        | 159.0 | 318  | 0.6848          | 0.8143   |
-| 0.7472        | 160.0 | 320  | 0.6842          | 0.8143   |
-| 0.7472        | 161.0 | 322  | 0.6836          | 0.8143   |
-| 0.7472        | 162.0 | 324  | 0.6831          | 0.8143   |
-| 0.7472        | 163.0 | 326  | 0.6826          | 0.8143   |
-| 0.7472        | 164.0 | 328  | 0.6822          | 0.8143   |
-| 0.7665        | 165.0 | 330  | 0.6818          | 0.8      |
-| 0.7665        | 166.0 | 332  | 0.6814          | 0.8      |
-| 0.7665        | 167.0 | 334  | 0.6810          | 0.8      |
-| 0.7665        | 168.0 | 336  | 0.6807          | 0.7857   |
-| 0.7665        | 169.0 | 338  | 0.6803          | 0.7857   |
-| 0.7684        | 170.0 | 340  | 0.6800          | 0.7857   |
-| 0.7684        | 171.0 | 342  | 0.6797          | 0.7857   |
-| 0.7684        | 172.0 | 344  | 0.6794          | 0.7857   |
-| 0.7684        | 173.0 | 346  | 0.6790          | 0.7857   |
-| 0.7684        | 174.0 | 348  | 0.6787          | 0.7857   |
-| 0.7459        | 175.0 | 350  | 0.6784          | 0.7857   |
-| 0.7459        | 176.0 | 352  | 0.6781          | 0.7857   |
-| 0.7459        | 177.0 | 354  | 0.6778          | 0.7857   |
-| 0.7459        | 178.0 | 356  | 0.6775          | 0.7857   |
-| 0.7459        | 179.0 | 358  | 0.6772          | 0.7857   |
-| 0.742         | 180.0 | 360  | 0.6769          | 0.7857   |
-| 0.742         | 181.0 | 362  | 0.6766          | 0.7857   |
-| 0.742         | 182.0 | 364  | 0.6764          | 0.7857   |
-| 0.742         | 183.0 | 366  | 0.6762          | 0.7857   |
-| 0.742         | 184.0 | 368  | 0.6760          | 0.7857   |
-| 0.7642        | 185.0 | 370  | 0.6758          | 0.7857   |
-| 0.7642        | 186.0 | 372  | 0.6756          | 0.7857   |
-| 0.7642        | 187.0 | 374  | 0.6754          | 0.7857   |
-| 0.7642        | 188.0 | 376  | 0.6752          | 0.7857   |
-| 0.7642        | 189.0 | 378  | 0.6750          | 0.7857   |
-| 0.7277        | 190.0 | 380  | 0.6749          | 0.7857   |
-| 0.7277        | 191.0 | 382  | 0.6748          | 0.7857   |
-| 0.7277        | 192.0 | 384  | 0.6746          | 0.7857   |
-| 0.7277        | 193.0 | 386  | 0.6745          | 0.7857   |
-| 0.7277        | 194.0 | 388  | 0.6745          | 0.7857   |
-| 0.764         | 195.0 | 390  | 0.6744          | 0.7857   |
-| 0.764         | 196.0 | 392  | 0.6743          | 0.7857   |
-| 0.764         | 197.0 | 394  | 0.6742          | 0.7857   |
-| 0.764         | 198.0 | 396  | 0.6742          | 0.8      |
-| 0.764         | 199.0 | 398  | 0.6742          | 0.8      |
-| 0.7444        | 200.0 | 400  | 0.6742          | 0.8      |
 ### Framework versions

     metrics:
     - name: Accuracy
       type: accuracy
+      value: 0.8285714285714286
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 This model is a fine-tuned version of [microsoft/swin-tiny-patch4-window7-224](https://huggingface.co/microsoft/swin-tiny-patch4-window7-224) on the imagefolder dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6771
+- Accuracy: 0.8286
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| No log        | 1.0   | 2    | 0.6875          | 0.8143   |
+| No log        | 2.0   | 4    | 0.6874          | 0.8143   |
+| No log        | 3.0   | 6    | 0.6873          | 0.8143   |
+| No log        | 4.0   | 8    | 0.6871          | 0.8143   |
+| 0.7555        | 5.0   | 10   | 0.6869          | 0.8143   |
+| 0.7555        | 6.0   | 12   | 0.6866          | 0.8143   |
+| 0.7555        | 7.0   | 14   | 0.6862          | 0.8143   |
+| 0.7555        | 8.0   | 16   | 0.6858          | 0.8143   |
+| 0.7555        | 9.0   | 18   | 0.6853          | 0.8143   |
+| 0.7576        | 10.0  | 20   | 0.6848          | 0.8143   |
+| 0.7576        | 11.0  | 22   | 0.6842          | 0.8143   |
+| 0.7576        | 12.0  | 24   | 0.6836          | 0.8143   |
+| 0.7576        | 13.0  | 26   | 0.6830          | 0.8143   |
+| 0.7576        | 14.0  | 28   | 0.6823          | 0.8143   |
+| 0.769         | 15.0  | 30   | 0.6816          | 0.8      |
+| 0.769         | 16.0  | 32   | 0.6808          | 0.8      |
+| 0.769         | 17.0  | 34   | 0.6800          | 0.8143   |
+| 0.769         | 18.0  | 36   | 0.6791          | 0.8143   |
+| 0.769         | 19.0  | 38   | 0.6781          | 0.8143   |
+| 0.7564        | 20.0  | 40   | 0.6771          | 0.8286   |
+| 0.7564        | 21.0  | 42   | 0.6760          | 0.8143   |
+| 0.7564        | 22.0  | 44   | 0.6748          | 0.8143   |
+| 0.7564        | 23.0  | 46   | 0.6737          | 0.8      |
+| 0.7564        | 24.0  | 48   | 0.6725          | 0.8      |
+| 0.7508        | 25.0  | 50   | 0.6713          | 0.8143   |
+| 0.7508        | 26.0  | 52   | 0.6701          | 0.8143   |
+| 0.7508        | 27.0  | 54   | 0.6689          | 0.8143   |
+| 0.7508        | 28.0  | 56   | 0.6674          | 0.8143   |
+| 0.7508        | 29.0  | 58   | 0.6660          | 0.8143   |
+| 0.747         | 30.0  | 60   | 0.6646          | 0.8143   |
+| 0.747         | 31.0  | 62   | 0.6631          | 0.8143   |
+| 0.747         | 32.0  | 64   | 0.6616          | 0.8143   |
+| 0.747         | 33.0  | 66   | 0.6601          | 0.8143   |
+| 0.747         | 34.0  | 68   | 0.6586          | 0.8143   |
+| 0.7343        | 35.0  | 70   | 0.6570          | 0.8143   |
+| 0.7343        | 36.0  | 72   | 0.6553          | 0.8143   |
+| 0.7343        | 37.0  | 74   | 0.6536          | 0.8143   |
+| 0.7343        | 38.0  | 76   | 0.6517          | 0.8143   |
+| 0.7343        | 39.0  | 78   | 0.6499          | 0.8143   |
+| 0.7532        | 40.0  | 80   | 0.6480          | 0.8143   |
+| 0.7532        | 41.0  | 82   | 0.6461          | 0.8143   |
+| 0.7532        | 42.0  | 84   | 0.6442          | 0.8143   |
+| 0.7532        | 43.0  | 86   | 0.6423          | 0.8143   |
+| 0.7532        | 44.0  | 88   | 0.6405          | 0.8143   |
+| 0.7239        | 45.0  | 90   | 0.6387          | 0.8143   |
+| 0.7239        | 46.0  | 92   | 0.6368          | 0.8143   |
+| 0.7239        | 47.0  | 94   | 0.6352          | 0.8143   |
+| 0.7239        | 48.0  | 96   | 0.6337          | 0.8143   |
+| 0.7239        | 49.0  | 98   | 0.6321          | 0.8286   |
+| 0.7085        | 50.0  | 100  | 0.6307          | 0.8286   |
+| 0.7085        | 51.0  | 102  | 0.6294          | 0.8286   |
+| 0.7085        | 52.0  | 104  | 0.6278          | 0.8286   |
+| 0.7085        | 53.0  | 106  | 0.6263          | 0.8286   |
+| 0.7085        | 54.0  | 108  | 0.6248          | 0.8143   |
+| 0.7203        | 55.0  | 110  | 0.6233          | 0.8143   |
+| 0.7203        | 56.0  | 112  | 0.6219          | 0.8143   |
+| 0.7203        | 57.0  | 114  | 0.6205          | 0.8143   |
+| 0.7203        | 58.0  | 116  | 0.6191          | 0.8143   |
+| 0.7203        | 59.0  | 118  | 0.6179          | 0.8143   |
+| 0.7136        | 60.0  | 120  | 0.6167          | 0.8143   |
+| 0.7136        | 61.0  | 122  | 0.6157          | 0.8143   |
+| 0.7136        | 62.0  | 124  | 0.6148          | 0.8      |
+| 0.7136        | 63.0  | 126  | 0.6138          | 0.8      |
+| 0.7136        | 64.0  | 128  | 0.6125          | 0.8      |
+| 0.7123        | 65.0  | 130  | 0.6111          | 0.8      |
+| 0.7123        | 66.0  | 132  | 0.6096          | 0.8143   |
+| 0.7123        | 67.0  | 134  | 0.6083          | 0.8143   |
+| 0.7123        | 68.0  | 136  | 0.6070          | 0.8143   |
+| 0.7123        | 69.0  | 138  | 0.6057          | 0.8143   |
+| 0.7076        | 70.0  | 140  | 0.6046          | 0.8143   |
+| 0.7076        | 71.0  | 142  | 0.6035          | 0.8143   |
+| 0.7076        | 72.0  | 144  | 0.6023          | 0.8143   |
+| 0.7076        | 73.0  | 146  | 0.6011          | 0.8143   |
+| 0.7076        | 74.0  | 148  | 0.5999          | 0.8143   |
+| 0.6878        | 75.0  | 150  | 0.5988          | 0.8143   |
+| 0.6878        | 76.0  | 152  | 0.5975          | 0.8143   |
+| 0.6878        | 77.0  | 154  | 0.5964          | 0.8143   |
+| 0.6878        | 78.0  | 156  | 0.5953          | 0.8143   |
+| 0.6878        | 79.0  | 158  | 0.5942          | 0.8143   |
+| 0.6657        | 80.0  | 160  | 0.5932          | 0.8143   |
+| 0.6657        | 81.0  | 162  | 0.5923          | 0.8143   |
+| 0.6657        | 82.0  | 164  | 0.5914          | 0.8143   |
+| 0.6657        | 83.0  | 166  | 0.5906          | 0.8143   |
+| 0.6657        | 84.0  | 168  | 0.5897          | 0.8143   |
+| 0.6434        | 85.0  | 170  | 0.5888          | 0.8143   |
+| 0.6434        | 86.0  | 172  | 0.5878          | 0.8143   |
+| 0.6434        | 87.0  | 174  | 0.5868          | 0.8143   |
+| 0.6434        | 88.0  | 176  | 0.5859          | 0.8143   |
+| 0.6434        | 89.0  | 178  | 0.5851          | 0.8143   |
+| 0.6825        | 90.0  | 180  | 0.5843          | 0.8143   |
+| 0.6825        | 91.0  | 182  | 0.5836          | 0.8143   |
+| 0.6825        | 92.0  | 184  | 0.5828          | 0.8143   |
+| 0.6825        | 93.0  | 186  | 0.5823          | 0.8143   |
+| 0.6825        | 94.0  | 188  | 0.5817          | 0.8286   |
+| 0.6695        | 95.0  | 190  | 0.5809          | 0.8143   |
+| 0.6695        | 96.0  | 192  | 0.5801          | 0.8143   |
+| 0.6695        | 97.0  | 194  | 0.5793          | 0.8143   |
+| 0.6695        | 98.0  | 196  | 0.5787          | 0.8143   |
+| 0.6695        | 99.0  | 198  | 0.5780          | 0.8143   |
+| 0.6672        | 100.0 | 200  | 0.5772          | 0.8143   |
+| 0.6672        | 101.0 | 202  | 0.5762          | 0.8143   |
+| 0.6672        | 102.0 | 204  | 0.5754          | 0.8143   |
+| 0.6672        | 103.0 | 206  | 0.5746          | 0.8143   |
+| 0.6672        | 104.0 | 208  | 0.5738          | 0.8143   |
+| 0.6569        | 105.0 | 210  | 0.5731          | 0.8143   |
+| 0.6569        | 106.0 | 212  | 0.5724          | 0.8143   |
+| 0.6569        | 107.0 | 214  | 0.5716          | 0.8143   |
+| 0.6569        | 108.0 | 216  | 0.5708          | 0.8143   |
+| 0.6569        | 109.0 | 218  | 0.5701          | 0.8143   |
+| 0.6748        | 110.0 | 220  | 0.5694          | 0.8143   |
+| 0.6748        | 111.0 | 222  | 0.5687          | 0.8143   |
+| 0.6748        | 112.0 | 224  | 0.5680          | 0.8143   |
+| 0.6748        | 113.0 | 226  | 0.5674          | 0.8143   |
+| 0.6748        | 114.0 | 228  | 0.5668          | 0.8143   |
+| 0.6388        | 115.0 | 230  | 0.5662          | 0.8143   |
+| 0.6388        | 116.0 | 232  | 0.5657          | 0.8143   |
+| 0.6388        | 117.0 | 234  | 0.5652          | 0.8143   |
+| 0.6388        | 118.0 | 236  | 0.5648          | 0.8286   |
+| 0.6388        | 119.0 | 238  | 0.5645          | 0.8286   |
+| 0.6551        | 120.0 | 240  | 0.5641          | 0.8286   |
+| 0.6551        | 121.0 | 242  | 0.5636          | 0.8143   |
+| 0.6551        | 122.0 | 244  | 0.5631          | 0.8143   |
+| 0.6551        | 123.0 | 246  | 0.5627          | 0.8143   |
+| 0.6551        | 124.0 | 248  | 0.5624          | 0.8143   |
+| 0.6452        | 125.0 | 250  | 0.5622          | 0.8143   |
+| 0.6452        | 126.0 | 252  | 0.5620          | 0.8143   |
+| 0.6452        | 127.0 | 254  | 0.5618          | 0.8143   |
+| 0.6452        | 128.0 | 256  | 0.5615          | 0.8143   |
+| 0.6452        | 129.0 | 258  | 0.5613          | 0.8143   |
+| 0.645         | 130.0 | 260  | 0.5611          | 0.8143   |
+| 0.645         | 131.0 | 262  | 0.5608          | 0.8143   |
+| 0.645         | 132.0 | 264  | 0.5606          | 0.8143   |
+| 0.645         | 133.0 | 266  | 0.5602          | 0.8143   |
+| 0.645         | 134.0 | 268  | 0.5596          | 0.8143   |
+| 0.629         | 135.0 | 270  | 0.5590          | 0.8143   |
+| 0.629         | 136.0 | 272  | 0.5582          | 0.8143   |
+| 0.629         | 137.0 | 274  | 0.5576          | 0.8143   |
+| 0.629         | 138.0 | 276  | 0.5571          | 0.8143   |
+| 0.629         | 139.0 | 278  | 0.5568          | 0.8143   |
+| 0.7126        | 140.0 | 280  | 0.5565          | 0.8143   |
+| 0.7126        | 141.0 | 282  | 0.5563          | 0.8143   |
+| 0.7126        | 142.0 | 284  | 0.5561          | 0.8143   |
+| 0.7126        | 143.0 | 286  | 0.5559          | 0.8143   |
+| 0.7126        | 144.0 | 288  | 0.5555          | 0.8143   |
+| 0.669         | 145.0 | 290  | 0.5552          | 0.8143   |
+| 0.669         | 146.0 | 292  | 0.5547          | 0.8143   |
+| 0.669         | 147.0 | 294  | 0.5542          | 0.8143   |
+| 0.669         | 148.0 | 296  | 0.5538          | 0.8143   |
+| 0.669         | 149.0 | 298  | 0.5534          | 0.8143   |
+| 0.6481        | 150.0 | 300  | 0.5530          | 0.8143   |
+| 0.6481        | 151.0 | 302  | 0.5526          | 0.8143   |
+| 0.6481        | 152.0 | 304  | 0.5522          | 0.8143   |
+| 0.6481        | 153.0 | 306  | 0.5519          | 0.8143   |
+| 0.6481        | 154.0 | 308  | 0.5515          | 0.8143   |
+| 0.6211        | 155.0 | 310  | 0.5510          | 0.8143   |
+| 0.6211        | 156.0 | 312  | 0.5506          | 0.8143   |
+| 0.6211        | 157.0 | 314  | 0.5502          | 0.8143   |
+| 0.6211        | 158.0 | 316  | 0.5499          | 0.8143   |
+| 0.6211        | 159.0 | 318  | 0.5496          | 0.8143   |
+| 0.6458        | 160.0 | 320  | 0.5492          | 0.8286   |
+| 0.6458        | 161.0 | 322  | 0.5490          | 0.8143   |
+| 0.6458        | 162.0 | 324  | 0.5488          | 0.8143   |
+| 0.6458        | 163.0 | 326  | 0.5486          | 0.8143   |
+| 0.6458        | 164.0 | 328  | 0.5484          | 0.8143   |
+| 0.6317        | 165.0 | 330  | 0.5481          | 0.8143   |
+| 0.6317        | 166.0 | 332  | 0.5479          | 0.8286   |
+| 0.6317        | 167.0 | 334  | 0.5476          | 0.8286   |
+| 0.6317        | 168.0 | 336  | 0.5473          | 0.8286   |
+| 0.6317        | 169.0 | 338  | 0.5471          | 0.8286   |
+| 0.6154        | 170.0 | 340  | 0.5470          | 0.8286   |
+| 0.6154        | 171.0 | 342  | 0.5468          | 0.8286   |
+| 0.6154        | 172.0 | 344  | 0.5466          | 0.8286   |
+| 0.6154        | 173.0 | 346  | 0.5464          | 0.8286   |
+| 0.6154        | 174.0 | 348  | 0.5462          | 0.8286   |
+| 0.6323        | 175.0 | 350  | 0.5460          | 0.8286   |
+| 0.6323        | 176.0 | 352  | 0.5459          | 0.8286   |
+| 0.6323        | 177.0 | 354  | 0.5457          | 0.8286   |
+| 0.6323        | 178.0 | 356  | 0.5456          | 0.8286   |
+| 0.6323        | 179.0 | 358  | 0.5455          | 0.8286   |
+| 0.6331        | 180.0 | 360  | 0.5453          | 0.8286   |
+| 0.6331        | 181.0 | 362  | 0.5452          | 0.8286   |
+| 0.6331        | 182.0 | 364  | 0.5451          | 0.8286   |
+| 0.6331        | 183.0 | 366  | 0.5449          | 0.8286   |
+| 0.6331        | 184.0 | 368  | 0.5448          | 0.8286   |
+| 0.6333        | 185.0 | 370  | 0.5447          | 0.8286   |
+| 0.6333        | 186.0 | 372  | 0.5447          | 0.8286   |
+| 0.6333        | 187.0 | 374  | 0.5446          | 0.8286   |
+| 0.6333        | 188.0 | 376  | 0.5445          | 0.8286   |
+| 0.6333        | 189.0 | 378  | 0.5445          | 0.8286   |
+| 0.608         | 190.0 | 380  | 0.5444          | 0.8286   |
+| 0.608         | 191.0 | 382  | 0.5444          | 0.8286   |
+| 0.608         | 192.0 | 384  | 0.5443          | 0.8286   |
+| 0.608         | 193.0 | 386  | 0.5443          | 0.8286   |
+| 0.608         | 194.0 | 388  | 0.5442          | 0.8286   |
+| 0.6155        | 195.0 | 390  | 0.5442          | 0.8286   |
+| 0.6155        | 196.0 | 392  | 0.5442          | 0.8286   |
+| 0.6155        | 197.0 | 394  | 0.5442          | 0.8286   |
+| 0.6155        | 198.0 | 396  | 0.5441          | 0.8286   |
+| 0.6155        | 199.0 | 398  | 0.5441          | 0.8286   |
+| 0.6272        | 200.0 | 400  | 0.5441          | 0.8286   |
 ### Framework versions

all_results.json CHANGED Viewed

@@ -1,13 +1,13 @@
 {
     "epoch": 200.0,
-    "eval_accuracy": 0.8142857142857143,
-    "eval_loss": 0.6875176429748535,
-    "eval_runtime": 0.839,
-    "eval_samples_per_second": 83.432,
-    "eval_steps_per_second": 2.384,
     "total_flos": 2.23710151698432e+18,
-    "train_loss": 0.8548950719833374,
-    "train_runtime": 1030.1946,
-    "train_samples_per_second": 87.362,
-    "train_steps_per_second": 0.388
 }

 {
     "epoch": 200.0,
+    "eval_accuracy": 0.8285714285714286,
+    "eval_loss": 0.6770716309547424,
+    "eval_runtime": 0.6932,
+    "eval_samples_per_second": 100.985,
+    "eval_steps_per_second": 2.885,
     "total_flos": 2.23710151698432e+18,
+    "train_loss": 0.6791047298908234,
+    "train_runtime": 1022.1437,
+    "train_samples_per_second": 88.05,
+    "train_steps_per_second": 0.391
 }

eval_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 200.0,
-    "eval_accuracy": 0.8142857142857143,
-    "eval_loss": 0.6875176429748535,
-    "eval_runtime": 0.839,
-    "eval_samples_per_second": 83.432,
-    "eval_steps_per_second": 2.384
 }

 {
     "epoch": 200.0,
+    "eval_accuracy": 0.8285714285714286,
+    "eval_loss": 0.6770716309547424,
+    "eval_runtime": 0.6932,
+    "eval_samples_per_second": 100.985,
+    "eval_steps_per_second": 2.885
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b62d9ef2983c93a25662930965516fed575d4b4bf9ef9e40f118fd77873bd11f
 size 110397937

 version https://git-lfs.github.com/spec/v1
+oid sha256:3948bfd3caacca713d9cd1f9c0bcc4bab7d1122e553b8f0d46454329a59a0401
 size 110397937

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 200.0,
     "total_flos": 2.23710151698432e+18,
-    "train_loss": 0.8548950719833374,
-    "train_runtime": 1030.1946,
-    "train_samples_per_second": 87.362,
-    "train_steps_per_second": 0.388
 }

 {
     "epoch": 200.0,
     "total_flos": 2.23710151698432e+18,
+    "train_loss": 0.6791047298908234,
+    "train_runtime": 1022.1437,
+    "train_samples_per_second": 88.05,
+    "train_steps_per_second": 0.391
 }

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.8142857142857143,
-  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-ADC-3cls-0922/checkpoint-310",
   "epoch": 200.0,
   "eval_steps": 500,
   "global_step": 400,
@@ -10,2052 +10,2052 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0693532228469849,
-      "eval_runtime": 1.0286,
-      "eval_samples_per_second": 68.056,
-      "eval_steps_per_second": 1.944,
       "step": 2
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0689432621002197,
-      "eval_runtime": 1.4012,
-      "eval_samples_per_second": 49.956,
-      "eval_steps_per_second": 1.427,
       "step": 4
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0682058334350586,
-      "eval_runtime": 0.8857,
-      "eval_samples_per_second": 79.031,
-      "eval_steps_per_second": 2.258,
       "step": 6
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0670955181121826,
-      "eval_runtime": 1.6997,
-      "eval_samples_per_second": 41.183,
-      "eval_steps_per_second": 1.177,
       "step": 8
     },
     {
       "epoch": 5.0,
       "learning_rate": 1.25e-05,
-      "loss": 1.096,
       "step": 10
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.065665602684021,
-      "eval_runtime": 0.6117,
-      "eval_samples_per_second": 114.441,
-      "eval_steps_per_second": 3.27,
       "step": 10
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.0639806985855103,
-      "eval_runtime": 0.6447,
-      "eval_samples_per_second": 108.583,
-      "eval_steps_per_second": 3.102,
       "step": 12
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0620665550231934,
-      "eval_runtime": 0.806,
-      "eval_samples_per_second": 86.844,
-      "eval_steps_per_second": 2.481,
       "step": 14
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.4,
-      "eval_loss": 1.0598403215408325,
-      "eval_runtime": 0.6374,
-      "eval_samples_per_second": 109.817,
-      "eval_steps_per_second": 3.138,
       "step": 16
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.4,
-      "eval_loss": 1.0572247505187988,
-      "eval_runtime": 0.6352,
-      "eval_samples_per_second": 110.2,
-      "eval_steps_per_second": 3.149,
       "step": 18
     },
     {
       "epoch": 10.0,
       "learning_rate": 2.5e-05,
-      "loss": 1.0906,
       "step": 20
     },
     {
       "epoch": 10.0,
-      "eval_accuracy": 0.4,
-      "eval_loss": 1.0545086860656738,
-      "eval_runtime": 0.8412,
-      "eval_samples_per_second": 83.211,
-      "eval_steps_per_second": 2.377,
       "step": 20
     },
     {
       "epoch": 11.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0516999959945679,
-      "eval_runtime": 0.6382,
-      "eval_samples_per_second": 109.685,
-      "eval_steps_per_second": 3.134,
       "step": 22
     },
     {
       "epoch": 12.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0486340522766113,
-      "eval_runtime": 0.6383,
-      "eval_samples_per_second": 109.67,
-      "eval_steps_per_second": 3.133,
       "step": 24
     },
     {
       "epoch": 13.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.045298457145691,
-      "eval_runtime": 0.8655,
-      "eval_samples_per_second": 80.883,
-      "eval_steps_per_second": 2.311,
       "step": 26
     },
     {
       "epoch": 14.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0417920351028442,
-      "eval_runtime": 0.64,
-      "eval_samples_per_second": 109.372,
-      "eval_steps_per_second": 3.125,
       "step": 28
     },
     {
       "epoch": 15.0,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 1.0647,
       "step": 30
     },
     {
       "epoch": 15.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0380207300186157,
-      "eval_runtime": 0.6461,
-      "eval_samples_per_second": 108.335,
-      "eval_steps_per_second": 3.095,
       "step": 30
     },
     {
       "epoch": 16.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.0343334674835205,
-      "eval_runtime": 0.8283,
-      "eval_samples_per_second": 84.515,
-      "eval_steps_per_second": 2.415,
       "step": 32
     },
     {
       "epoch": 17.0,
-      "eval_accuracy": 0.4142857142857143,
-      "eval_loss": 1.030653953552246,
-      "eval_runtime": 0.6353,
-      "eval_samples_per_second": 110.181,
-      "eval_steps_per_second": 3.148,
       "step": 34
     },
     {
       "epoch": 18.0,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.0267900228500366,
-      "eval_runtime": 0.6316,
-      "eval_samples_per_second": 110.829,
-      "eval_steps_per_second": 3.167,
       "step": 36
     },
     {
       "epoch": 19.0,
-      "eval_accuracy": 0.42857142857142855,
-      "eval_loss": 1.0229403972625732,
-      "eval_runtime": 1.4107,
-      "eval_samples_per_second": 49.619,
-      "eval_steps_per_second": 1.418,
       "step": 38
     },
     {
       "epoch": 20.0,
       "learning_rate": 5e-05,
-      "loss": 1.0451,
       "step": 40
     },
     {
       "epoch": 20.0,
-      "eval_accuracy": 0.44285714285714284,
-      "eval_loss": 1.0190969705581665,
-      "eval_runtime": 0.6384,
-      "eval_samples_per_second": 109.648,
-      "eval_steps_per_second": 3.133,
       "step": 40
     },
     {
       "epoch": 21.0,
-      "eval_accuracy": 0.45714285714285713,
-      "eval_loss": 1.0152583122253418,
-      "eval_runtime": 0.6302,
-      "eval_samples_per_second": 111.074,
-      "eval_steps_per_second": 3.174,
       "step": 42
     },
     {
       "epoch": 22.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 1.011588454246521,
-      "eval_runtime": 0.8016,
-      "eval_samples_per_second": 87.325,
-      "eval_steps_per_second": 2.495,
       "step": 44
     },
     {
       "epoch": 23.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 1.0081889629364014,
-      "eval_runtime": 0.6258,
-      "eval_samples_per_second": 111.852,
-      "eval_steps_per_second": 3.196,
       "step": 46
     },
     {
       "epoch": 24.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 1.0049412250518799,
-      "eval_runtime": 0.6247,
-      "eval_samples_per_second": 112.06,
-      "eval_steps_per_second": 3.202,
       "step": 48
     },
     {
       "epoch": 25.0,
       "learning_rate": 6.25e-05,
-      "loss": 1.037,
       "step": 50
     },
     {
       "epoch": 25.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 1.0015885829925537,
-      "eval_runtime": 0.8268,
-      "eval_samples_per_second": 84.66,
-      "eval_steps_per_second": 2.419,
       "step": 50
     },
     {
       "epoch": 26.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9978756308555603,
-      "eval_runtime": 0.635,
-      "eval_samples_per_second": 110.241,
-      "eval_steps_per_second": 3.15,
       "step": 52
     },
     {
       "epoch": 27.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9943951368331909,
-      "eval_runtime": 0.6443,
-      "eval_samples_per_second": 108.649,
-      "eval_steps_per_second": 3.104,
       "step": 54
     },
     {
       "epoch": 28.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9912726283073425,
-      "eval_runtime": 0.8063,
-      "eval_samples_per_second": 86.821,
-      "eval_steps_per_second": 2.481,
       "step": 56
     },
     {
       "epoch": 29.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9882513880729675,
-      "eval_runtime": 0.635,
-      "eval_samples_per_second": 110.236,
-      "eval_steps_per_second": 3.15,
       "step": 58
     },
     {
       "epoch": 30.0,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 1.0214,
       "step": 60
     },
     {
       "epoch": 30.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9846696257591248,
-      "eval_runtime": 0.6341,
-      "eval_samples_per_second": 110.395,
-      "eval_steps_per_second": 3.154,
       "step": 60
     },
     {
       "epoch": 31.0,
-      "eval_accuracy": 0.45714285714285713,
-      "eval_loss": 0.9809077382087708,
-      "eval_runtime": 0.8112,
-      "eval_samples_per_second": 86.297,
-      "eval_steps_per_second": 2.466,
       "step": 62
     },
     {
       "epoch": 32.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9768250584602356,
-      "eval_runtime": 0.6357,
-      "eval_samples_per_second": 110.106,
-      "eval_steps_per_second": 3.146,
       "step": 64
     },
     {
       "epoch": 33.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9722528457641602,
-      "eval_runtime": 0.6387,
-      "eval_samples_per_second": 109.603,
-      "eval_steps_per_second": 3.132,
       "step": 66
     },
     {
       "epoch": 34.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9670786261558533,
-      "eval_runtime": 0.83,
-      "eval_samples_per_second": 84.335,
-      "eval_steps_per_second": 2.41,
       "step": 68
     },
     {
       "epoch": 35.0,
       "learning_rate": 8.75e-05,
-      "loss": 1.0181,
       "step": 70
     },
     {
       "epoch": 35.0,
-      "eval_accuracy": 0.4714285714285714,
-      "eval_loss": 0.9616244435310364,
-      "eval_runtime": 0.6343,
-      "eval_samples_per_second": 110.364,
-      "eval_steps_per_second": 3.153,
       "step": 70
     },
     {
       "epoch": 36.0,
-      "eval_accuracy": 0.4857142857142857,
-      "eval_loss": 0.9561253190040588,
-      "eval_runtime": 0.6551,
-      "eval_samples_per_second": 106.853,
-      "eval_steps_per_second": 3.053,
       "step": 72
     },
     {
       "epoch": 37.0,
-      "eval_accuracy": 0.5,
-      "eval_loss": 0.950469434261322,
-      "eval_runtime": 0.8176,
-      "eval_samples_per_second": 85.619,
-      "eval_steps_per_second": 2.446,
       "step": 74
     },
     {
       "epoch": 38.0,
-      "eval_accuracy": 0.5285714285714286,
-      "eval_loss": 0.9445714950561523,
-      "eval_runtime": 0.6352,
-      "eval_samples_per_second": 110.194,
-      "eval_steps_per_second": 3.148,
       "step": 76
     },
     {
       "epoch": 39.0,
-      "eval_accuracy": 0.5285714285714286,
-      "eval_loss": 0.9387871026992798,
-      "eval_runtime": 0.629,
-      "eval_samples_per_second": 111.283,
-      "eval_steps_per_second": 3.18,
       "step": 78
     },
     {
       "epoch": 40.0,
       "learning_rate": 0.0001,
-      "loss": 0.9646,
       "step": 80
     },
     {
       "epoch": 40.0,
-      "eval_accuracy": 0.5285714285714286,
-      "eval_loss": 0.9331315159797668,
-      "eval_runtime": 0.8121,
-      "eval_samples_per_second": 86.194,
-      "eval_steps_per_second": 2.463,
       "step": 80
     },
     {
       "epoch": 41.0,
-      "eval_accuracy": 0.5142857142857142,
-      "eval_loss": 0.9276390075683594,
-      "eval_runtime": 0.6356,
-      "eval_samples_per_second": 110.129,
-      "eval_steps_per_second": 3.147,
       "step": 82
     },
     {
       "epoch": 42.0,
-      "eval_accuracy": 0.5285714285714286,
-      "eval_loss": 0.9224144220352173,
-      "eval_runtime": 0.6341,
-      "eval_samples_per_second": 110.396,
-      "eval_steps_per_second": 3.154,
       "step": 84
     },
     {
       "epoch": 43.0,
-      "eval_accuracy": 0.5285714285714286,
-      "eval_loss": 0.917235791683197,
-      "eval_runtime": 0.8135,
-      "eval_samples_per_second": 86.048,
-      "eval_steps_per_second": 2.459,
       "step": 86
     },
     {
       "epoch": 44.0,
-      "eval_accuracy": 0.5285714285714286,
-      "eval_loss": 0.9120003581047058,
-      "eval_runtime": 0.6333,
-      "eval_samples_per_second": 110.541,
-      "eval_steps_per_second": 3.158,
       "step": 88
     },
     {
       "epoch": 45.0,
       "learning_rate": 9.687500000000001e-05,
-      "loss": 0.946,
       "step": 90
     },
     {
       "epoch": 45.0,
-      "eval_accuracy": 0.5142857142857142,
-      "eval_loss": 0.9070144891738892,
-      "eval_runtime": 0.6382,
-      "eval_samples_per_second": 109.685,
-      "eval_steps_per_second": 3.134,
       "step": 90
     },
     {
       "epoch": 46.0,
-      "eval_accuracy": 0.5285714285714286,
-      "eval_loss": 0.9021272659301758,
-      "eval_runtime": 0.8166,
-      "eval_samples_per_second": 85.719,
-      "eval_steps_per_second": 2.449,
       "step": 92
     },
     {
       "epoch": 47.0,
-      "eval_accuracy": 0.5428571428571428,
-      "eval_loss": 0.897597074508667,
-      "eval_runtime": 0.634,
-      "eval_samples_per_second": 110.411,
-      "eval_steps_per_second": 3.155,
       "step": 94
     },
     {
       "epoch": 48.0,
-      "eval_accuracy": 0.5428571428571428,
-      "eval_loss": 0.8932848572731018,
-      "eval_runtime": 0.6408,
-      "eval_samples_per_second": 109.231,
-      "eval_steps_per_second": 3.121,
       "step": 96
     },
     {
       "epoch": 49.0,
-      "eval_accuracy": 0.5714285714285714,
-      "eval_loss": 0.8890884518623352,
-      "eval_runtime": 0.8162,
-      "eval_samples_per_second": 85.76,
-      "eval_steps_per_second": 2.45,
       "step": 98
     },
     {
       "epoch": 50.0,
       "learning_rate": 9.375e-05,
-      "loss": 0.9244,
       "step": 100
     },
     {
       "epoch": 50.0,
-      "eval_accuracy": 0.5714285714285714,
-      "eval_loss": 0.8845995664596558,
-      "eval_runtime": 0.6368,
-      "eval_samples_per_second": 109.929,
-      "eval_steps_per_second": 3.141,
       "step": 100
     },
     {
       "epoch": 51.0,
-      "eval_accuracy": 0.5714285714285714,
-      "eval_loss": 0.8802858591079712,
-      "eval_runtime": 0.6401,
-      "eval_samples_per_second": 109.353,
-      "eval_steps_per_second": 3.124,
       "step": 102
     },
     {
       "epoch": 52.0,
-      "eval_accuracy": 0.5714285714285714,
-      "eval_loss": 0.8758621215820312,
-      "eval_runtime": 0.8118,
-      "eval_samples_per_second": 86.227,
-      "eval_steps_per_second": 2.464,
       "step": 104
     },
     {
       "epoch": 53.0,
-      "eval_accuracy": 0.5714285714285714,
-      "eval_loss": 0.8715727925300598,
-      "eval_runtime": 0.6434,
-      "eval_samples_per_second": 108.8,
-      "eval_steps_per_second": 3.109,
       "step": 106
     },
     {
       "epoch": 54.0,
-      "eval_accuracy": 0.5714285714285714,
-      "eval_loss": 0.8674018383026123,
-      "eval_runtime": 0.63,
-      "eval_samples_per_second": 111.108,
-      "eval_steps_per_second": 3.175,
       "step": 108
     },
     {
       "epoch": 55.0,
       "learning_rate": 9.062500000000001e-05,
-      "loss": 0.9228,
       "step": 110
     },
     {
       "epoch": 55.0,
-      "eval_accuracy": 0.5857142857142857,
-      "eval_loss": 0.86343914270401,
-      "eval_runtime": 0.7324,
-      "eval_samples_per_second": 95.574,
-      "eval_steps_per_second": 2.731,
       "step": 110
     },
     {
       "epoch": 56.0,
-      "eval_accuracy": 0.6,
-      "eval_loss": 0.8597754240036011,
-      "eval_runtime": 0.6359,
-      "eval_samples_per_second": 110.082,
-      "eval_steps_per_second": 3.145,
       "step": 112
     },
     {
       "epoch": 57.0,
-      "eval_accuracy": 0.5857142857142857,
-      "eval_loss": 0.8562148213386536,
-      "eval_runtime": 0.6308,
-      "eval_samples_per_second": 110.969,
-      "eval_steps_per_second": 3.171,
       "step": 114
     },
     {
       "epoch": 58.0,
-      "eval_accuracy": 0.6,
-      "eval_loss": 0.852704644203186,
-      "eval_runtime": 0.6483,
-      "eval_samples_per_second": 107.968,
-      "eval_steps_per_second": 3.085,
       "step": 116
     },
     {
       "epoch": 59.0,
-      "eval_accuracy": 0.6,
-      "eval_loss": 0.8491949439048767,
-      "eval_runtime": 0.7037,
-      "eval_samples_per_second": 99.48,
-      "eval_steps_per_second": 2.842,
       "step": 118
     },
     {
       "epoch": 60.0,
       "learning_rate": 8.75e-05,
-      "loss": 0.8956,
       "step": 120
     },
     {
       "epoch": 60.0,
-      "eval_accuracy": 0.6142857142857143,
-      "eval_loss": 0.8456201553344727,
-      "eval_runtime": 0.6463,
-      "eval_samples_per_second": 108.309,
-      "eval_steps_per_second": 3.095,
       "step": 120
     },
     {
       "epoch": 61.0,
-      "eval_accuracy": 0.6,
-      "eval_loss": 0.8420506715774536,
-      "eval_runtime": 0.63,
-      "eval_samples_per_second": 111.119,
-      "eval_steps_per_second": 3.175,
       "step": 122
     },
     {
       "epoch": 62.0,
-      "eval_accuracy": 0.6,
-      "eval_loss": 0.8385196924209595,
-      "eval_runtime": 0.7958,
-      "eval_samples_per_second": 87.963,
-      "eval_steps_per_second": 2.513,
       "step": 124
     },
     {
       "epoch": 63.0,
-      "eval_accuracy": 0.6,
-      "eval_loss": 0.8351073861122131,
-      "eval_runtime": 0.6308,
-      "eval_samples_per_second": 110.971,
-      "eval_steps_per_second": 3.171,
       "step": 126
     },
     {
       "epoch": 64.0,
-      "eval_accuracy": 0.6142857142857143,
-      "eval_loss": 0.8317676186561584,
-      "eval_runtime": 0.6457,
-      "eval_samples_per_second": 108.412,
-      "eval_steps_per_second": 3.097,
       "step": 128
     },
     {
       "epoch": 65.0,
       "learning_rate": 8.4375e-05,
-      "loss": 0.8943,
       "step": 130
     },
     {
       "epoch": 65.0,
-      "eval_accuracy": 0.6142857142857143,
-      "eval_loss": 0.8285678029060364,
-      "eval_runtime": 0.8132,
-      "eval_samples_per_second": 86.08,
-      "eval_steps_per_second": 2.459,
       "step": 130
     },
     {
       "epoch": 66.0,
-      "eval_accuracy": 0.6,
-      "eval_loss": 0.825462281703949,
-      "eval_runtime": 0.6417,
-      "eval_samples_per_second": 109.078,
-      "eval_steps_per_second": 3.117,
       "step": 132
     },
     {
       "epoch": 67.0,
-      "eval_accuracy": 0.6285714285714286,
-      "eval_loss": 0.8222988247871399,
-      "eval_runtime": 0.6393,
-      "eval_samples_per_second": 109.486,
-      "eval_steps_per_second": 3.128,
       "step": 134
     },
     {
       "epoch": 68.0,
-      "eval_accuracy": 0.6428571428571429,
-      "eval_loss": 0.8190925121307373,
-      "eval_runtime": 0.8213,
-      "eval_samples_per_second": 85.231,
-      "eval_steps_per_second": 2.435,
       "step": 136
     },
     {
       "epoch": 69.0,
-      "eval_accuracy": 0.6285714285714286,
-      "eval_loss": 0.8158699870109558,
-      "eval_runtime": 0.6409,
-      "eval_samples_per_second": 109.217,
-      "eval_steps_per_second": 3.12,
       "step": 138
     },
     {
       "epoch": 70.0,
       "learning_rate": 8.125000000000001e-05,
-      "loss": 0.854,
       "step": 140
     },
     {
       "epoch": 70.0,
-      "eval_accuracy": 0.6428571428571429,
-      "eval_loss": 0.8128588199615479,
-      "eval_runtime": 0.6403,
-      "eval_samples_per_second": 109.332,
-      "eval_steps_per_second": 3.124,
       "step": 140
     },
     {
       "epoch": 71.0,
-      "eval_accuracy": 0.6714285714285714,
-      "eval_loss": 0.8099709749221802,
-      "eval_runtime": 0.8076,
-      "eval_samples_per_second": 86.675,
-      "eval_steps_per_second": 2.476,
       "step": 142
     },
     {
       "epoch": 72.0,
-      "eval_accuracy": 0.6714285714285714,
-      "eval_loss": 0.8072643280029297,
-      "eval_runtime": 0.6395,
-      "eval_samples_per_second": 109.469,
-      "eval_steps_per_second": 3.128,
       "step": 144
     },
     {
       "epoch": 73.0,
-      "eval_accuracy": 0.6571428571428571,
-      "eval_loss": 0.804807722568512,
-      "eval_runtime": 0.6346,
-      "eval_samples_per_second": 110.311,
-      "eval_steps_per_second": 3.152,
       "step": 146
     },
     {
       "epoch": 74.0,
-      "eval_accuracy": 0.6714285714285714,
-      "eval_loss": 0.8025286793708801,
-      "eval_runtime": 0.7964,
-      "eval_samples_per_second": 87.9,
-      "eval_steps_per_second": 2.511,
       "step": 148
     },
     {
       "epoch": 75.0,
       "learning_rate": 7.8125e-05,
-      "loss": 0.8615,
       "step": 150
     },
     {
       "epoch": 75.0,
-      "eval_accuracy": 0.6571428571428571,
-      "eval_loss": 0.8000553250312805,
-      "eval_runtime": 0.6302,
-      "eval_samples_per_second": 111.077,
-      "eval_steps_per_second": 3.174,
       "step": 150
     },
     {
       "epoch": 76.0,
-      "eval_accuracy": 0.6571428571428571,
-      "eval_loss": 0.797595739364624,
-      "eval_runtime": 0.6315,
-      "eval_samples_per_second": 110.841,
-      "eval_steps_per_second": 3.167,
       "step": 152
     },
     {
       "epoch": 77.0,
-      "eval_accuracy": 0.6571428571428571,
-      "eval_loss": 0.795224130153656,
-      "eval_runtime": 0.7988,
-      "eval_samples_per_second": 87.627,
-      "eval_steps_per_second": 2.504,
       "step": 154
     },
     {
       "epoch": 78.0,
-      "eval_accuracy": 0.6571428571428571,
-      "eval_loss": 0.7928095459938049,
-      "eval_runtime": 0.6405,
-      "eval_samples_per_second": 109.291,
-      "eval_steps_per_second": 3.123,
       "step": 156
     },
     {
       "epoch": 79.0,
-      "eval_accuracy": 0.6571428571428571,
-      "eval_loss": 0.7904472351074219,
-      "eval_runtime": 0.6375,
-      "eval_samples_per_second": 109.802,
-      "eval_steps_per_second": 3.137,
       "step": 158
     },
     {
       "epoch": 80.0,
       "learning_rate": 7.500000000000001e-05,
-      "loss": 0.8507,
       "step": 160
     },
     {
       "epoch": 80.0,
-      "eval_accuracy": 0.6714285714285714,
-      "eval_loss": 0.7881516218185425,
-      "eval_runtime": 0.8024,
-      "eval_samples_per_second": 87.237,
-      "eval_steps_per_second": 2.492,
       "step": 160
     },
     {
       "epoch": 81.0,
-      "eval_accuracy": 0.6714285714285714,
-      "eval_loss": 0.7857871055603027,
-      "eval_runtime": 0.6344,
-      "eval_samples_per_second": 110.338,
-      "eval_steps_per_second": 3.153,
       "step": 162
     },
     {
       "epoch": 82.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7834708094596863,
-      "eval_runtime": 0.6376,
-      "eval_samples_per_second": 109.781,
-      "eval_steps_per_second": 3.137,
       "step": 164
     },
     {
       "epoch": 83.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7811411023139954,
-      "eval_runtime": 0.8171,
-      "eval_samples_per_second": 85.665,
-      "eval_steps_per_second": 2.448,
       "step": 166
     },
     {
       "epoch": 84.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7788016200065613,
-      "eval_runtime": 0.6448,
-      "eval_samples_per_second": 108.552,
-      "eval_steps_per_second": 3.101,
       "step": 168
     },
     {
       "epoch": 85.0,
       "learning_rate": 7.1875e-05,
-      "loss": 0.838,
       "step": 170
     },
     {
       "epoch": 85.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7765094041824341,
-      "eval_runtime": 0.6436,
-      "eval_samples_per_second": 108.77,
-      "eval_steps_per_second": 3.108,
       "step": 170
     },
     {
       "epoch": 86.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7743098139762878,
-      "eval_runtime": 0.8392,
-      "eval_samples_per_second": 83.412,
-      "eval_steps_per_second": 2.383,
       "step": 172
     },
     {
       "epoch": 87.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7722915410995483,
-      "eval_runtime": 0.6421,
-      "eval_samples_per_second": 109.013,
-      "eval_steps_per_second": 3.115,
       "step": 174
     },
     {
       "epoch": 88.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7703205943107605,
-      "eval_runtime": 0.6583,
-      "eval_samples_per_second": 106.337,
-      "eval_steps_per_second": 3.038,
       "step": 176
     },
     {
       "epoch": 89.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.768402636051178,
-      "eval_runtime": 0.8092,
-      "eval_samples_per_second": 86.507,
-      "eval_steps_per_second": 2.472,
       "step": 178
     },
     {
       "epoch": 90.0,
       "learning_rate": 6.875e-05,
-      "loss": 0.8245,
       "step": 180
     },
     {
       "epoch": 90.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7664420008659363,
-      "eval_runtime": 0.6321,
-      "eval_samples_per_second": 110.749,
-      "eval_steps_per_second": 3.164,
       "step": 180
     },
     {
       "epoch": 91.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7643933296203613,
-      "eval_runtime": 0.6416,
-      "eval_samples_per_second": 109.102,
-      "eval_steps_per_second": 3.117,
       "step": 182
     },
     {
       "epoch": 92.0,
-      "eval_accuracy": 0.6857142857142857,
-      "eval_loss": 0.7624573111534119,
-      "eval_runtime": 0.8206,
-      "eval_samples_per_second": 85.305,
-      "eval_steps_per_second": 2.437,
       "step": 184
     },
     {
       "epoch": 93.0,
-      "eval_accuracy": 0.7142857142857143,
-      "eval_loss": 0.7605774998664856,
-      "eval_runtime": 0.6303,
-      "eval_samples_per_second": 111.066,
-      "eval_steps_per_second": 3.173,
       "step": 186
     },
     {
       "epoch": 94.0,
-      "eval_accuracy": 0.7142857142857143,
-      "eval_loss": 0.7587181329727173,
-      "eval_runtime": 0.6487,
-      "eval_samples_per_second": 107.907,
-      "eval_steps_per_second": 3.083,
       "step": 188
     },
     {
       "epoch": 95.0,
       "learning_rate": 6.562500000000001e-05,
-      "loss": 0.8124,
       "step": 190
     },
     {
       "epoch": 95.0,
-      "eval_accuracy": 0.7142857142857143,
-      "eval_loss": 0.75688236951828,
-      "eval_runtime": 0.83,
-      "eval_samples_per_second": 84.337,
-      "eval_steps_per_second": 2.41,
       "step": 190
     },
     {
       "epoch": 96.0,
-      "eval_accuracy": 0.7285714285714285,
-      "eval_loss": 0.755053699016571,
-      "eval_runtime": 0.6434,
-      "eval_samples_per_second": 108.8,
-      "eval_steps_per_second": 3.109,
       "step": 192
     },
     {
       "epoch": 97.0,
-      "eval_accuracy": 0.7285714285714285,
-      "eval_loss": 0.7533228993415833,
-      "eval_runtime": 0.6338,
-      "eval_samples_per_second": 110.439,
-      "eval_steps_per_second": 3.155,
       "step": 194
     },
     {
       "epoch": 98.0,
-      "eval_accuracy": 0.7285714285714285,
-      "eval_loss": 0.7516511082649231,
-      "eval_runtime": 0.8125,
-      "eval_samples_per_second": 86.157,
-      "eval_steps_per_second": 2.462,
       "step": 196
     },
     {
       "epoch": 99.0,
-      "eval_accuracy": 0.7428571428571429,
-      "eval_loss": 0.7499614953994751,
-      "eval_runtime": 0.6565,
-      "eval_samples_per_second": 106.632,
-      "eval_steps_per_second": 3.047,
       "step": 198
     },
     {
       "epoch": 100.0,
       "learning_rate": 6.25e-05,
-      "loss": 0.8102,
       "step": 200
     },
     {
       "epoch": 100.0,
-      "eval_accuracy": 0.7428571428571429,
-      "eval_loss": 0.7482544183731079,
-      "eval_runtime": 0.6344,
-      "eval_samples_per_second": 110.346,
-      "eval_steps_per_second": 3.153,
       "step": 200
     },
     {
       "epoch": 101.0,
-      "eval_accuracy": 0.7428571428571429,
-      "eval_loss": 0.7465088963508606,
-      "eval_runtime": 0.8175,
-      "eval_samples_per_second": 85.623,
-      "eval_steps_per_second": 2.446,
       "step": 202
     },
     {
       "epoch": 102.0,
-      "eval_accuracy": 0.7428571428571429,
-      "eval_loss": 0.7449584007263184,
-      "eval_runtime": 0.6372,
-      "eval_samples_per_second": 109.854,
-      "eval_steps_per_second": 3.139,
       "step": 204
     },
     {
       "epoch": 103.0,
-      "eval_accuracy": 0.7428571428571429,
-      "eval_loss": 0.7434430718421936,
-      "eval_runtime": 0.6379,
-      "eval_samples_per_second": 109.741,
-      "eval_steps_per_second": 3.135,
       "step": 206
     },
     {
       "epoch": 104.0,
-      "eval_accuracy": 0.7428571428571429,
-      "eval_loss": 0.7419188618659973,
-      "eval_runtime": 0.8331,
-      "eval_samples_per_second": 84.027,
-      "eval_steps_per_second": 2.401,
       "step": 208
     },
     {
       "epoch": 105.0,
       "learning_rate": 5.9375e-05,
-      "loss": 0.821,
       "step": 210
     },
     {
       "epoch": 105.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7403832674026489,
-      "eval_runtime": 0.6317,
-      "eval_samples_per_second": 110.817,
-      "eval_steps_per_second": 3.166,
       "step": 210
     },
     {
       "epoch": 106.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7388736605644226,
-      "eval_runtime": 0.638,
-      "eval_samples_per_second": 109.722,
-      "eval_steps_per_second": 3.135,
       "step": 212
     },
     {
       "epoch": 107.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7374056577682495,
-      "eval_runtime": 0.8271,
-      "eval_samples_per_second": 84.63,
-      "eval_steps_per_second": 2.418,
       "step": 214
     },
     {
       "epoch": 108.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7359411120414734,
-      "eval_runtime": 0.6382,
-      "eval_samples_per_second": 109.678,
-      "eval_steps_per_second": 3.134,
       "step": 216
     },
     {
       "epoch": 109.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.734478235244751,
-      "eval_runtime": 0.6424,
-      "eval_samples_per_second": 108.966,
-      "eval_steps_per_second": 3.113,
       "step": 218
     },
     {
       "epoch": 110.0,
       "learning_rate": 5.6250000000000005e-05,
-      "loss": 0.7918,
       "step": 220
     },
     {
       "epoch": 110.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7330225110054016,
-      "eval_runtime": 0.8294,
-      "eval_samples_per_second": 84.398,
-      "eval_steps_per_second": 2.411,
       "step": 220
     },
     {
       "epoch": 111.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7315928339958191,
-      "eval_runtime": 0.6456,
-      "eval_samples_per_second": 108.432,
-      "eval_steps_per_second": 3.098,
       "step": 222
     },
     {
       "epoch": 112.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7302229404449463,
-      "eval_runtime": 0.6368,
-      "eval_samples_per_second": 109.931,
-      "eval_steps_per_second": 3.141,
       "step": 224
     },
     {
       "epoch": 113.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7288532257080078,
-      "eval_runtime": 0.8298,
-      "eval_samples_per_second": 84.362,
-      "eval_steps_per_second": 2.41,
       "step": 226
     },
     {
       "epoch": 114.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7275059223175049,
-      "eval_runtime": 0.6447,
-      "eval_samples_per_second": 108.584,
-      "eval_steps_per_second": 3.102,
       "step": 228
     },
     {
       "epoch": 115.0,
       "learning_rate": 5.3125000000000004e-05,
-      "loss": 0.8063,
       "step": 230
     },
     {
       "epoch": 115.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.7261765599250793,
-      "eval_runtime": 0.6376,
-      "eval_samples_per_second": 109.779,
-      "eval_steps_per_second": 3.137,
       "step": 230
     },
     {
       "epoch": 116.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.7246890068054199,
-      "eval_runtime": 0.8093,
-      "eval_samples_per_second": 86.498,
-      "eval_steps_per_second": 2.471,
       "step": 232
     },
     {
       "epoch": 117.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7232338190078735,
-      "eval_runtime": 0.6473,
-      "eval_samples_per_second": 108.146,
-      "eval_steps_per_second": 3.09,
       "step": 234
     },
     {
       "epoch": 118.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7218143939971924,
-      "eval_runtime": 0.639,
-      "eval_samples_per_second": 109.553,
-      "eval_steps_per_second": 3.13,
       "step": 236
     },
     {
       "epoch": 119.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7204232811927795,
-      "eval_runtime": 0.8245,
-      "eval_samples_per_second": 84.902,
-      "eval_steps_per_second": 2.426,
       "step": 238
     },
     {
       "epoch": 120.0,
       "learning_rate": 5e-05,
-      "loss": 0.7897,
       "step": 240
     },
     {
       "epoch": 120.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7191569209098816,
-      "eval_runtime": 0.639,
-      "eval_samples_per_second": 109.548,
-      "eval_steps_per_second": 3.13,
       "step": 240
     },
     {
       "epoch": 121.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7179904580116272,
-      "eval_runtime": 0.6313,
-      "eval_samples_per_second": 110.887,
-      "eval_steps_per_second": 3.168,
       "step": 242
     },
     {
       "epoch": 122.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7168429493904114,
-      "eval_runtime": 0.8342,
-      "eval_samples_per_second": 83.908,
-      "eval_steps_per_second": 2.397,
       "step": 244
     },
     {
       "epoch": 123.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7157979011535645,
-      "eval_runtime": 0.6333,
-      "eval_samples_per_second": 110.541,
-      "eval_steps_per_second": 3.158,
       "step": 246
     },
     {
       "epoch": 124.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.714880645275116,
-      "eval_runtime": 0.6368,
-      "eval_samples_per_second": 109.924,
-      "eval_steps_per_second": 3.141,
       "step": 248
     },
     {
       "epoch": 125.0,
       "learning_rate": 4.6875e-05,
-      "loss": 0.7845,
       "step": 250
     },
     {
       "epoch": 125.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7140344381332397,
-      "eval_runtime": 0.8287,
-      "eval_samples_per_second": 84.466,
-      "eval_steps_per_second": 2.413,
       "step": 250
     },
     {
       "epoch": 126.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7130730152130127,
-      "eval_runtime": 0.6617,
-      "eval_samples_per_second": 105.79,
-      "eval_steps_per_second": 3.023,
       "step": 252
     },
     {
       "epoch": 127.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7120916247367859,
-      "eval_runtime": 0.6392,
-      "eval_samples_per_second": 109.509,
-      "eval_steps_per_second": 3.129,
       "step": 254
     },
     {
       "epoch": 128.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7110173106193542,
-      "eval_runtime": 0.8272,
-      "eval_samples_per_second": 84.623,
-      "eval_steps_per_second": 2.418,
       "step": 256
     },
     {
       "epoch": 129.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7099365592002869,
-      "eval_runtime": 0.8513,
-      "eval_samples_per_second": 82.229,
-      "eval_steps_per_second": 2.349,
       "step": 258
     },
     {
       "epoch": 130.0,
       "learning_rate": 4.375e-05,
-      "loss": 0.7781,
       "step": 260
     },
     {
       "epoch": 130.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7087655663490295,
-      "eval_runtime": 0.6529,
-      "eval_samples_per_second": 107.222,
-      "eval_steps_per_second": 3.063,
       "step": 260
     },
     {
       "epoch": 131.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7076297402381897,
-      "eval_runtime": 0.633,
-      "eval_samples_per_second": 110.582,
-      "eval_steps_per_second": 3.159,
       "step": 262
     },
     {
       "epoch": 132.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.706558883190155,
-      "eval_runtime": 0.8161,
-      "eval_samples_per_second": 85.772,
-      "eval_steps_per_second": 2.451,
       "step": 264
     },
     {
       "epoch": 133.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7055317759513855,
-      "eval_runtime": 0.6432,
-      "eval_samples_per_second": 108.834,
-      "eval_steps_per_second": 3.11,
       "step": 266
     },
     {
       "epoch": 134.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.7044604420661926,
-      "eval_runtime": 0.6426,
-      "eval_samples_per_second": 108.936,
-      "eval_steps_per_second": 3.112,
       "step": 268
     },
     {
       "epoch": 135.0,
       "learning_rate": 4.0625000000000005e-05,
-      "loss": 0.7708,
       "step": 270
     },
     {
       "epoch": 135.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.7034193873405457,
-      "eval_runtime": 0.8178,
-      "eval_samples_per_second": 85.591,
-      "eval_steps_per_second": 2.445,
       "step": 270
     },
     {
       "epoch": 136.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7024958729743958,
-      "eval_runtime": 0.6353,
-      "eval_samples_per_second": 110.186,
-      "eval_steps_per_second": 3.148,
       "step": 272
     },
     {
       "epoch": 137.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7016207575798035,
-      "eval_runtime": 0.632,
-      "eval_samples_per_second": 110.758,
-      "eval_steps_per_second": 3.165,
       "step": 274
     },
     {
       "epoch": 138.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.7007526755332947,
-      "eval_runtime": 0.8281,
-      "eval_samples_per_second": 84.534,
-      "eval_steps_per_second": 2.415,
       "step": 276
     },
     {
       "epoch": 139.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.6998603343963623,
-      "eval_runtime": 0.6379,
-      "eval_samples_per_second": 109.736,
-      "eval_steps_per_second": 3.135,
       "step": 278
     },
     {
       "epoch": 140.0,
       "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.797,
       "step": 280
     },
     {
       "epoch": 140.0,
-      "eval_accuracy": 0.7571428571428571,
-      "eval_loss": 0.6989655494689941,
-      "eval_runtime": 0.6404,
-      "eval_samples_per_second": 109.303,
-      "eval_steps_per_second": 3.123,
       "step": 280
     },
     {
       "epoch": 141.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.6981316804885864,
-      "eval_runtime": 0.8143,
-      "eval_samples_per_second": 85.963,
-      "eval_steps_per_second": 2.456,
       "step": 282
     },
     {
       "epoch": 142.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.6973427534103394,
       "eval_runtime": 0.6382,
-      "eval_samples_per_second": 109.681,
       "eval_steps_per_second": 3.134,
       "step": 284
     },
     {
       "epoch": 143.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.6966080069541931,
-      "eval_runtime": 0.6394,
-      "eval_samples_per_second": 109.471,
-      "eval_steps_per_second": 3.128,
       "step": 286
     },
     {
       "epoch": 144.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.6958935856819153,
-      "eval_runtime": 0.8183,
-      "eval_samples_per_second": 85.546,
-      "eval_steps_per_second": 2.444,
       "step": 288
     },
     {
       "epoch": 145.0,
       "learning_rate": 3.4375e-05,
-      "loss": 0.7768,
       "step": 290
     },
     {
       "epoch": 145.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.695166289806366,
-      "eval_runtime": 0.6458,
-      "eval_samples_per_second": 108.386,
-      "eval_steps_per_second": 3.097,
       "step": 290
     },
     {
       "epoch": 146.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.694381833076477,
-      "eval_runtime": 0.6351,
-      "eval_samples_per_second": 110.21,
-      "eval_steps_per_second": 3.149,
       "step": 292
     },
     {
       "epoch": 147.0,
-      "eval_accuracy": 0.7714285714285715,
-      "eval_loss": 0.6935797333717346,
-      "eval_runtime": 0.8207,
-      "eval_samples_per_second": 85.29,
-      "eval_steps_per_second": 2.437,
       "step": 294
     },
     {
       "epoch": 148.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6927558779716492,
-      "eval_runtime": 0.6395,
-      "eval_samples_per_second": 109.463,
-      "eval_steps_per_second": 3.128,
       "step": 296
     },
     {
       "epoch": 149.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6919543147087097,
-      "eval_runtime": 0.6322,
-      "eval_samples_per_second": 110.727,
-      "eval_steps_per_second": 3.164,
       "step": 298
     },
     {
       "epoch": 150.0,
       "learning_rate": 3.125e-05,
-      "loss": 0.7569,
       "step": 300
     },
     {
       "epoch": 150.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6911686658859253,
-      "eval_runtime": 0.8112,
-      "eval_samples_per_second": 86.294,
-      "eval_steps_per_second": 2.466,
       "step": 300
     },
     {
       "epoch": 151.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.6904271841049194,
-      "eval_runtime": 0.6485,
-      "eval_samples_per_second": 107.942,
-      "eval_steps_per_second": 3.084,
       "step": 302
     },
     {
       "epoch": 152.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.6896898150444031,
-      "eval_runtime": 0.6429,
-      "eval_samples_per_second": 108.878,
-      "eval_steps_per_second": 3.111,
       "step": 304
     },
     {
       "epoch": 153.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.688970148563385,
-      "eval_runtime": 0.8248,
-      "eval_samples_per_second": 84.872,
-      "eval_steps_per_second": 2.425,
       "step": 306
     },
     {
       "epoch": 154.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.6882473826408386,
-      "eval_runtime": 0.6473,
-      "eval_samples_per_second": 108.141,
-      "eval_steps_per_second": 3.09,
       "step": 308
     },
     {
       "epoch": 155.0,
       "learning_rate": 2.8125000000000003e-05,
-      "loss": 0.7807,
       "step": 310
     },
     {
       "epoch": 155.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6875176429748535,
-      "eval_runtime": 0.6211,
-      "eval_samples_per_second": 112.707,
-      "eval_steps_per_second": 3.22,
       "step": 310
     },
     {
       "epoch": 156.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6867862939834595,
-      "eval_runtime": 0.8104,
-      "eval_samples_per_second": 86.38,
-      "eval_steps_per_second": 2.468,
       "step": 312
     },
     {
       "epoch": 157.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6860566139221191,
-      "eval_runtime": 0.6376,
-      "eval_samples_per_second": 109.79,
-      "eval_steps_per_second": 3.137,
       "step": 314
     },
     {
       "epoch": 158.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6853832006454468,
-      "eval_runtime": 0.6414,
-      "eval_samples_per_second": 109.144,
-      "eval_steps_per_second": 3.118,
       "step": 316
     },
     {
       "epoch": 159.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.684758186340332,
-      "eval_runtime": 0.8168,
-      "eval_samples_per_second": 85.701,
-      "eval_steps_per_second": 2.449,
       "step": 318
     },
     {
       "epoch": 160.0,
       "learning_rate": 2.5e-05,
-      "loss": 0.7472,
       "step": 320
     },
     {
       "epoch": 160.0,
-      "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6841580867767334,
-      "eval_runtime": 0.6398,
-      "eval_samples_per_second": 109.413,
-      "eval_steps_per_second": 3.126,
       "step": 320
     },
     {
       "epoch": 161.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6836223006248474,
-      "eval_runtime": 0.6529,
-      "eval_samples_per_second": 107.211,
-      "eval_steps_per_second": 3.063,
       "step": 322
     },
     {
       "epoch": 162.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.683104932308197,
-      "eval_runtime": 0.8258,
-      "eval_samples_per_second": 84.764,
-      "eval_steps_per_second": 2.422,
       "step": 324
     },
     {
       "epoch": 163.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6826251745223999,
-      "eval_runtime": 0.6361,
-      "eval_samples_per_second": 110.054,
-      "eval_steps_per_second": 3.144,
       "step": 326
     },
     {
       "epoch": 164.0,
       "eval_accuracy": 0.8142857142857143,
-      "eval_loss": 0.6821797490119934,
-      "eval_runtime": 0.6381,
-      "eval_samples_per_second": 109.703,
-      "eval_steps_per_second": 3.134,
       "step": 328
     },
     {
       "epoch": 165.0,
       "learning_rate": 2.1875e-05,
-      "loss": 0.7665,
       "step": 330
     },
     {
       "epoch": 165.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.6817546486854553,
-      "eval_runtime": 0.8246,
-      "eval_samples_per_second": 84.889,
-      "eval_steps_per_second": 2.425,
       "step": 330
     },
     {
       "epoch": 166.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.6813837885856628,
-      "eval_runtime": 0.6625,
-      "eval_samples_per_second": 105.654,
-      "eval_steps_per_second": 3.019,
       "step": 332
     },
     {
       "epoch": 167.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.681039035320282,
-      "eval_runtime": 0.6385,
-      "eval_samples_per_second": 109.638,
-      "eval_steps_per_second": 3.133,
       "step": 334
     },
     {
       "epoch": 168.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6806796193122864,
-      "eval_runtime": 0.8294,
-      "eval_samples_per_second": 84.403,
-      "eval_steps_per_second": 2.412,
       "step": 336
     },
     {
       "epoch": 169.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.680313766002655,
-      "eval_runtime": 0.6312,
-      "eval_samples_per_second": 110.896,
-      "eval_steps_per_second": 3.168,
       "step": 338
     },
     {
       "epoch": 170.0,
       "learning_rate": 1.8750000000000002e-05,
-      "loss": 0.7684,
       "step": 340
     },
     {
       "epoch": 170.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6799898743629456,
-      "eval_runtime": 0.6322,
-      "eval_samples_per_second": 110.721,
-      "eval_steps_per_second": 3.163,
       "step": 340
     },
     {
       "epoch": 171.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6796825528144836,
-      "eval_runtime": 0.8381,
-      "eval_samples_per_second": 83.525,
-      "eval_steps_per_second": 2.386,
       "step": 342
     },
     {
       "epoch": 172.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6793543696403503,
-      "eval_runtime": 0.6493,
-      "eval_samples_per_second": 107.81,
-      "eval_steps_per_second": 3.08,
       "step": 344
     },
     {
       "epoch": 173.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6790363192558289,
-      "eval_runtime": 0.6451,
-      "eval_samples_per_second": 108.504,
-      "eval_steps_per_second": 3.1,
       "step": 346
     },
     {
       "epoch": 174.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6787369847297668,
-      "eval_runtime": 0.8298,
-      "eval_samples_per_second": 84.361,
-      "eval_steps_per_second": 2.41,
       "step": 348
     },
     {
       "epoch": 175.0,
       "learning_rate": 1.5625e-05,
-      "loss": 0.7459,
       "step": 350
     },
     {
       "epoch": 175.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6784414052963257,
-      "eval_runtime": 0.6607,
-      "eval_samples_per_second": 105.953,
-      "eval_steps_per_second": 3.027,
       "step": 350
     },
     {
       "epoch": 176.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6781107783317566,
-      "eval_runtime": 0.681,
-      "eval_samples_per_second": 102.789,
-      "eval_steps_per_second": 2.937,
       "step": 352
     },
     {
       "epoch": 177.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.677795946598053,
-      "eval_runtime": 0.8379,
-      "eval_samples_per_second": 83.54,
-      "eval_steps_per_second": 2.387,
       "step": 354
     },
     {
       "epoch": 178.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6774783730506897,
-      "eval_runtime": 0.6408,
-      "eval_samples_per_second": 109.247,
-      "eval_steps_per_second": 3.121,
       "step": 356
     },
     {
       "epoch": 179.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6771765351295471,
-      "eval_runtime": 0.6403,
-      "eval_samples_per_second": 109.315,
-      "eval_steps_per_second": 3.123,
       "step": 358
     },
     {
       "epoch": 180.0,
       "learning_rate": 1.25e-05,
-      "loss": 0.742,
       "step": 360
     },
     {
       "epoch": 180.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6768958568572998,
-      "eval_runtime": 0.8321,
-      "eval_samples_per_second": 84.126,
-      "eval_steps_per_second": 2.404,
       "step": 360
     },
     {
       "epoch": 181.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6766448616981506,
-      "eval_runtime": 0.6364,
-      "eval_samples_per_second": 110.0,
-      "eval_steps_per_second": 3.143,
       "step": 362
     },
     {
       "epoch": 182.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6764284372329712,
-      "eval_runtime": 0.647,
-      "eval_samples_per_second": 108.196,
-      "eval_steps_per_second": 3.091,
       "step": 364
     },
     {
       "epoch": 183.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6762242913246155,
-      "eval_runtime": 0.8597,
-      "eval_samples_per_second": 81.422,
-      "eval_steps_per_second": 2.326,
       "step": 366
     },
     {
       "epoch": 184.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6760057806968689,
-      "eval_runtime": 0.651,
-      "eval_samples_per_second": 107.527,
-      "eval_steps_per_second": 3.072,
       "step": 368
     },
     {
       "epoch": 185.0,
       "learning_rate": 9.375000000000001e-06,
-      "loss": 0.7642,
       "step": 370
     },
     {
       "epoch": 185.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6757904291152954,
-      "eval_runtime": 0.6445,
-      "eval_samples_per_second": 108.618,
-      "eval_steps_per_second": 3.103,
       "step": 370
     },
     {
       "epoch": 186.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6755796670913696,
-      "eval_runtime": 0.8335,
-      "eval_samples_per_second": 83.986,
-      "eval_steps_per_second": 2.4,
       "step": 372
     },
     {
       "epoch": 187.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6753801107406616,
-      "eval_runtime": 0.6394,
-      "eval_samples_per_second": 109.479,
-      "eval_steps_per_second": 3.128,
       "step": 374
     },
     {
       "epoch": 188.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6752031445503235,
-      "eval_runtime": 0.658,
-      "eval_samples_per_second": 106.386,
-      "eval_steps_per_second": 3.04,
       "step": 376
     },
     {
       "epoch": 189.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6750344634056091,
-      "eval_runtime": 0.8422,
-      "eval_samples_per_second": 83.112,
-      "eval_steps_per_second": 2.375,
       "step": 378
     },
     {
       "epoch": 190.0,
       "learning_rate": 6.25e-06,
-      "loss": 0.7277,
       "step": 380
     },
     {
       "epoch": 190.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.674885094165802,
-      "eval_runtime": 0.6493,
-      "eval_samples_per_second": 107.808,
-      "eval_steps_per_second": 3.08,
       "step": 380
     },
     {
       "epoch": 191.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6747546195983887,
-      "eval_runtime": 0.6429,
-      "eval_samples_per_second": 108.875,
-      "eval_steps_per_second": 3.111,
       "step": 382
     },
     {
       "epoch": 192.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6746455430984497,
-      "eval_runtime": 0.8305,
-      "eval_samples_per_second": 84.289,
-      "eval_steps_per_second": 2.408,
       "step": 384
     },
     {
       "epoch": 193.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6745493412017822,
-      "eval_runtime": 0.6551,
-      "eval_samples_per_second": 106.855,
-      "eval_steps_per_second": 3.053,
       "step": 386
     },
     {
       "epoch": 194.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6744527816772461,
-      "eval_runtime": 0.6428,
-      "eval_samples_per_second": 108.896,
-      "eval_steps_per_second": 3.111,
       "step": 388
     },
     {
       "epoch": 195.0,
       "learning_rate": 3.125e-06,
-      "loss": 0.764,
       "step": 390
     },
     {
       "epoch": 195.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6743654608726501,
-      "eval_runtime": 0.8334,
-      "eval_samples_per_second": 83.991,
-      "eval_steps_per_second": 2.4,
       "step": 390
     },
     {
       "epoch": 196.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.674295961856842,
-      "eval_runtime": 0.652,
-      "eval_samples_per_second": 107.363,
-      "eval_steps_per_second": 3.068,
       "step": 392
     },
     {
       "epoch": 197.0,
-      "eval_accuracy": 0.7857142857142857,
-      "eval_loss": 0.6742398142814636,
-      "eval_runtime": 0.6659,
-      "eval_samples_per_second": 105.127,
-      "eval_steps_per_second": 3.004,
       "step": 394
     },
     {
       "epoch": 198.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.6741960644721985,
-      "eval_runtime": 0.8894,
-      "eval_samples_per_second": 78.703,
-      "eval_steps_per_second": 2.249,
       "step": 396
     },
     {
       "epoch": 199.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.674168586730957,
-      "eval_runtime": 0.6565,
-      "eval_samples_per_second": 106.623,
-      "eval_steps_per_second": 3.046,
       "step": 398
     },
     {
       "epoch": 200.0,
       "learning_rate": 0.0,
-      "loss": 0.7444,
       "step": 400
     },
     {
       "epoch": 200.0,
-      "eval_accuracy": 0.8,
-      "eval_loss": 0.6741567850112915,
-      "eval_runtime": 0.6417,
-      "eval_samples_per_second": 109.09,
-      "eval_steps_per_second": 3.117,
       "step": 400
     },
     {
       "epoch": 200.0,
       "step": 400,
       "total_flos": 2.23710151698432e+18,
-      "train_loss": 0.8548950719833374,
-      "train_runtime": 1030.1946,
-      "train_samples_per_second": 87.362,
-      "train_steps_per_second": 0.388
     }
   ],
   "logging_steps": 10,

 {
+  "best_metric": 0.8285714285714286,
+  "best_model_checkpoint": "swin-tiny-patch4-window7-224-finetuned-ADC-3cls-0922/checkpoint-40",
   "epoch": 200.0,
   "eval_steps": 500,
   "global_step": 400,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6875032186508179,
+      "eval_runtime": 0.8381,
+      "eval_samples_per_second": 83.526,
+      "eval_steps_per_second": 2.386,
       "step": 2
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6874324083328247,
+      "eval_runtime": 0.6285,
+      "eval_samples_per_second": 111.384,
+      "eval_steps_per_second": 3.182,
       "step": 4
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6873045563697815,
+      "eval_runtime": 0.6533,
+      "eval_samples_per_second": 107.153,
+      "eval_steps_per_second": 3.062,
       "step": 6
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.687107264995575,
+      "eval_runtime": 0.8041,
+      "eval_samples_per_second": 87.057,
+      "eval_steps_per_second": 2.487,
       "step": 8
     },
     {
       "epoch": 5.0,
       "learning_rate": 1.25e-05,
+      "loss": 0.7555,
       "step": 10
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6868652701377869,
+      "eval_runtime": 0.6585,
+      "eval_samples_per_second": 106.309,
+      "eval_steps_per_second": 3.037,
       "step": 10
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.686565101146698,
+      "eval_runtime": 0.6372,
+      "eval_samples_per_second": 109.86,
+      "eval_steps_per_second": 3.139,
       "step": 12
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6861968636512756,
+      "eval_runtime": 0.8401,
+      "eval_samples_per_second": 83.326,
+      "eval_steps_per_second": 2.381,
       "step": 14
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.685771644115448,
+      "eval_runtime": 0.6402,
+      "eval_samples_per_second": 109.344,
+      "eval_steps_per_second": 3.124,
       "step": 16
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6853042244911194,
+      "eval_runtime": 0.638,
+      "eval_samples_per_second": 109.711,
+      "eval_steps_per_second": 3.135,
       "step": 18
     },
     {
       "epoch": 10.0,
       "learning_rate": 2.5e-05,
+      "loss": 0.7576,
       "step": 20
     },
     {
       "epoch": 10.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6847913861274719,
+      "eval_runtime": 0.8284,
+      "eval_samples_per_second": 84.496,
+      "eval_steps_per_second": 2.414,
       "step": 20
     },
     {
       "epoch": 11.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6842377185821533,
+      "eval_runtime": 0.6408,
+      "eval_samples_per_second": 109.237,
+      "eval_steps_per_second": 3.121,
       "step": 22
     },
     {
       "epoch": 12.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6836268901824951,
+      "eval_runtime": 0.6496,
+      "eval_samples_per_second": 107.755,
+      "eval_steps_per_second": 3.079,
       "step": 24
     },
     {
       "epoch": 13.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6829591393470764,
+      "eval_runtime": 0.8145,
+      "eval_samples_per_second": 85.938,
+      "eval_steps_per_second": 2.455,
       "step": 26
     },
     {
       "epoch": 14.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6822755336761475,
+      "eval_runtime": 0.6641,
+      "eval_samples_per_second": 105.412,
+      "eval_steps_per_second": 3.012,
       "step": 28
     },
     {
       "epoch": 15.0,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.769,
       "step": 30
     },
     {
       "epoch": 15.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6815804839134216,
+      "eval_runtime": 0.6278,
+      "eval_samples_per_second": 111.502,
+      "eval_steps_per_second": 3.186,
       "step": 30
     },
     {
       "epoch": 16.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6808401346206665,
+      "eval_runtime": 0.8247,
+      "eval_samples_per_second": 84.88,
+      "eval_steps_per_second": 2.425,
       "step": 32
     },
     {
       "epoch": 17.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6800239086151123,
+      "eval_runtime": 0.6376,
+      "eval_samples_per_second": 109.794,
+      "eval_steps_per_second": 3.137,
       "step": 34
     },
     {
       "epoch": 18.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.679133951663971,
+      "eval_runtime": 0.6356,
+      "eval_samples_per_second": 110.128,
+      "eval_steps_per_second": 3.147,
       "step": 36
     },
     {
       "epoch": 19.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6781331896781921,
+      "eval_runtime": 0.8136,
+      "eval_samples_per_second": 86.039,
+      "eval_steps_per_second": 2.458,
       "step": 38
     },
     {
       "epoch": 20.0,
       "learning_rate": 5e-05,
+      "loss": 0.7564,
       "step": 40
     },
     {
       "epoch": 20.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.6770716309547424,
+      "eval_runtime": 0.627,
+      "eval_samples_per_second": 111.643,
+      "eval_steps_per_second": 3.19,
       "step": 40
     },
     {
       "epoch": 21.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6759592294692993,
+      "eval_runtime": 0.6244,
+      "eval_samples_per_second": 112.113,
+      "eval_steps_per_second": 3.203,
       "step": 42
     },
     {
       "epoch": 22.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.674824059009552,
+      "eval_runtime": 0.72,
+      "eval_samples_per_second": 97.226,
+      "eval_steps_per_second": 2.778,
       "step": 44
     },
     {
       "epoch": 23.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6736522912979126,
+      "eval_runtime": 0.6356,
+      "eval_samples_per_second": 110.125,
+      "eval_steps_per_second": 3.146,
       "step": 46
     },
     {
       "epoch": 24.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6724562644958496,
+      "eval_runtime": 0.6465,
+      "eval_samples_per_second": 108.268,
+      "eval_steps_per_second": 3.093,
       "step": 48
     },
     {
       "epoch": 25.0,
       "learning_rate": 6.25e-05,
+      "loss": 0.7508,
       "step": 50
     },
     {
       "epoch": 25.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6713314056396484,
+      "eval_runtime": 0.6458,
+      "eval_samples_per_second": 108.385,
+      "eval_steps_per_second": 3.097,
       "step": 50
     },
     {
       "epoch": 26.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6701393723487854,
+      "eval_runtime": 0.7532,
+      "eval_samples_per_second": 92.934,
+      "eval_steps_per_second": 2.655,
       "step": 52
     },
     {
       "epoch": 27.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6688514947891235,
+      "eval_runtime": 0.6275,
+      "eval_samples_per_second": 111.546,
+      "eval_steps_per_second": 3.187,
       "step": 54
     },
     {
       "epoch": 28.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6674489378929138,
+      "eval_runtime": 0.6455,
+      "eval_samples_per_second": 108.446,
+      "eval_steps_per_second": 3.098,
       "step": 56
     },
     {
       "epoch": 29.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6660061478614807,
+      "eval_runtime": 0.7926,
+      "eval_samples_per_second": 88.312,
+      "eval_steps_per_second": 2.523,
       "step": 58
     },
     {
       "epoch": 30.0,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 0.747,
       "step": 60
     },
     {
       "epoch": 30.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6645620465278625,
+      "eval_runtime": 0.6238,
+      "eval_samples_per_second": 112.214,
+      "eval_steps_per_second": 3.206,
       "step": 60
     },
     {
       "epoch": 31.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6631242632865906,
+      "eval_runtime": 0.651,
+      "eval_samples_per_second": 107.52,
+      "eval_steps_per_second": 3.072,
       "step": 62
     },
     {
       "epoch": 32.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6616196036338806,
+      "eval_runtime": 0.8036,
+      "eval_samples_per_second": 87.111,
+      "eval_steps_per_second": 2.489,
       "step": 64
     },
     {
       "epoch": 33.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6600926518440247,
+      "eval_runtime": 0.638,
+      "eval_samples_per_second": 109.722,
+      "eval_steps_per_second": 3.135,
       "step": 66
     },
     {
       "epoch": 34.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6585766673088074,
+      "eval_runtime": 0.6365,
+      "eval_samples_per_second": 109.973,
+      "eval_steps_per_second": 3.142,
       "step": 68
     },
     {
       "epoch": 35.0,
       "learning_rate": 8.75e-05,
+      "loss": 0.7343,
       "step": 70
     },
     {
       "epoch": 35.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6569960117340088,
+      "eval_runtime": 0.7913,
+      "eval_samples_per_second": 88.467,
+      "eval_steps_per_second": 2.528,
       "step": 70
     },
     {
       "epoch": 36.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6553293466567993,
+      "eval_runtime": 0.6317,
+      "eval_samples_per_second": 110.815,
+      "eval_steps_per_second": 3.166,
       "step": 72
     },
     {
       "epoch": 37.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6535871028900146,
+      "eval_runtime": 0.6261,
+      "eval_samples_per_second": 111.81,
+      "eval_steps_per_second": 3.195,
       "step": 74
     },
     {
       "epoch": 38.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6517333388328552,
+      "eval_runtime": 0.7801,
+      "eval_samples_per_second": 89.727,
+      "eval_steps_per_second": 2.564,
       "step": 76
     },
     {
       "epoch": 39.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6498710513114929,
+      "eval_runtime": 0.6688,
+      "eval_samples_per_second": 104.667,
+      "eval_steps_per_second": 2.99,
       "step": 78
     },
     {
       "epoch": 40.0,
       "learning_rate": 0.0001,
+      "loss": 0.7532,
       "step": 80
     },
     {
       "epoch": 40.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6480462551116943,
+      "eval_runtime": 0.6422,
+      "eval_samples_per_second": 108.998,
+      "eval_steps_per_second": 3.114,
       "step": 80
     },
     {
       "epoch": 41.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6461040377616882,
+      "eval_runtime": 0.7878,
+      "eval_samples_per_second": 88.86,
+      "eval_steps_per_second": 2.539,
       "step": 82
     },
     {
       "epoch": 42.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6441839337348938,
+      "eval_runtime": 0.6221,
+      "eval_samples_per_second": 112.518,
+      "eval_steps_per_second": 3.215,
       "step": 84
     },
     {
       "epoch": 43.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6423068046569824,
+      "eval_runtime": 0.6404,
+      "eval_samples_per_second": 109.306,
+      "eval_steps_per_second": 3.123,
       "step": 86
     },
     {
       "epoch": 44.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6404834985733032,
+      "eval_runtime": 0.8194,
+      "eval_samples_per_second": 85.431,
+      "eval_steps_per_second": 2.441,
       "step": 88
     },
     {
       "epoch": 45.0,
       "learning_rate": 9.687500000000001e-05,
+      "loss": 0.7239,
       "step": 90
     },
     {
       "epoch": 45.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.638668417930603,
+      "eval_runtime": 0.6293,
+      "eval_samples_per_second": 111.227,
+      "eval_steps_per_second": 3.178,
       "step": 90
     },
     {
       "epoch": 46.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6368482112884521,
+      "eval_runtime": 0.6307,
+      "eval_samples_per_second": 110.981,
+      "eval_steps_per_second": 3.171,
       "step": 92
     },
     {
       "epoch": 47.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6351889967918396,
+      "eval_runtime": 0.8243,
+      "eval_samples_per_second": 84.921,
+      "eval_steps_per_second": 2.426,
       "step": 94
     },
     {
       "epoch": 48.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6336590051651001,
+      "eval_runtime": 0.6325,
+      "eval_samples_per_second": 110.664,
+      "eval_steps_per_second": 3.162,
       "step": 96
     },
     {
       "epoch": 49.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.6321325302124023,
+      "eval_runtime": 0.6292,
+      "eval_samples_per_second": 111.258,
+      "eval_steps_per_second": 3.179,
       "step": 98
     },
     {
       "epoch": 50.0,
       "learning_rate": 9.375e-05,
+      "loss": 0.7085,
       "step": 100
     },
     {
       "epoch": 50.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.6307134628295898,
+      "eval_runtime": 0.8147,
+      "eval_samples_per_second": 85.924,
+      "eval_steps_per_second": 2.455,
       "step": 100
     },
     {
       "epoch": 51.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.6293519139289856,
+      "eval_runtime": 0.6273,
+      "eval_samples_per_second": 111.588,
+      "eval_steps_per_second": 3.188,
       "step": 102
     },
     {
       "epoch": 52.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.6278188228607178,
+      "eval_runtime": 0.6366,
+      "eval_samples_per_second": 109.96,
+      "eval_steps_per_second": 3.142,
       "step": 104
     },
     {
       "epoch": 53.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.6263061165809631,
+      "eval_runtime": 0.8106,
+      "eval_samples_per_second": 86.353,
+      "eval_steps_per_second": 2.467,
       "step": 106
     },
     {
       "epoch": 54.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6247809529304504,
+      "eval_runtime": 0.637,
+      "eval_samples_per_second": 109.885,
+      "eval_steps_per_second": 3.14,
       "step": 108
     },
     {
       "epoch": 55.0,
       "learning_rate": 9.062500000000001e-05,
+      "loss": 0.7203,
       "step": 110
     },
     {
       "epoch": 55.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6232935190200806,
+      "eval_runtime": 0.6312,
+      "eval_samples_per_second": 110.901,
+      "eval_steps_per_second": 3.169,
       "step": 110
     },
     {
       "epoch": 56.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6218679547309875,
+      "eval_runtime": 0.8253,
+      "eval_samples_per_second": 84.819,
+      "eval_steps_per_second": 2.423,
       "step": 112
     },
     {
       "epoch": 57.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6204643845558167,
+      "eval_runtime": 0.6393,
+      "eval_samples_per_second": 109.495,
+      "eval_steps_per_second": 3.128,
       "step": 114
     },
     {
       "epoch": 58.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6191075444221497,
+      "eval_runtime": 0.6278,
+      "eval_samples_per_second": 111.495,
+      "eval_steps_per_second": 3.186,
       "step": 116
     },
     {
       "epoch": 59.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6178752779960632,
+      "eval_runtime": 0.8233,
+      "eval_samples_per_second": 85.027,
+      "eval_steps_per_second": 2.429,
       "step": 118
     },
     {
       "epoch": 60.0,
       "learning_rate": 8.75e-05,
+      "loss": 0.7136,
       "step": 120
     },
     {
       "epoch": 60.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6167242527008057,
+      "eval_runtime": 0.6489,
+      "eval_samples_per_second": 107.881,
+      "eval_steps_per_second": 3.082,
       "step": 120
     },
     {
       "epoch": 61.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6156985759735107,
+      "eval_runtime": 0.6472,
+      "eval_samples_per_second": 108.154,
+      "eval_steps_per_second": 3.09,
       "step": 122
     },
     {
       "epoch": 62.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.61481112241745,
+      "eval_runtime": 0.8228,
+      "eval_samples_per_second": 85.073,
+      "eval_steps_per_second": 2.431,
       "step": 124
     },
     {
       "epoch": 63.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6138356328010559,
+      "eval_runtime": 0.6327,
+      "eval_samples_per_second": 110.64,
+      "eval_steps_per_second": 3.161,
       "step": 126
     },
     {
       "epoch": 64.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6125301122665405,
+      "eval_runtime": 0.6379,
+      "eval_samples_per_second": 109.736,
+      "eval_steps_per_second": 3.135,
       "step": 128
     },
     {
       "epoch": 65.0,
       "learning_rate": 8.4375e-05,
+      "loss": 0.7123,
       "step": 130
     },
     {
       "epoch": 65.0,
+      "eval_accuracy": 0.8,
+      "eval_loss": 0.6110576391220093,
+      "eval_runtime": 0.825,
+      "eval_samples_per_second": 84.849,
+      "eval_steps_per_second": 2.424,
       "step": 130
     },
     {
       "epoch": 66.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6096405982971191,
+      "eval_runtime": 0.6376,
+      "eval_samples_per_second": 109.782,
+      "eval_steps_per_second": 3.137,
       "step": 132
     },
     {
       "epoch": 67.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6083278656005859,
+      "eval_runtime": 0.8232,
+      "eval_samples_per_second": 85.037,
+      "eval_steps_per_second": 2.43,
       "step": 134
     },
     {
       "epoch": 68.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6069909930229187,
+      "eval_runtime": 0.8193,
+      "eval_samples_per_second": 85.437,
+      "eval_steps_per_second": 2.441,
       "step": 136
     },
     {
       "epoch": 69.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6057179570198059,
+      "eval_runtime": 0.6486,
+      "eval_samples_per_second": 107.925,
+      "eval_steps_per_second": 3.084,
       "step": 138
     },
     {
       "epoch": 70.0,
       "learning_rate": 8.125000000000001e-05,
+      "loss": 0.7076,
       "step": 140
     },
     {
       "epoch": 70.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.604619562625885,
+      "eval_runtime": 0.6358,
+      "eval_samples_per_second": 110.095,
+      "eval_steps_per_second": 3.146,
       "step": 140
     },
     {
       "epoch": 71.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6034784913063049,
+      "eval_runtime": 0.8201,
+      "eval_samples_per_second": 85.352,
+      "eval_steps_per_second": 2.439,
       "step": 142
     },
     {
       "epoch": 72.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6022736430168152,
+      "eval_runtime": 0.6311,
+      "eval_samples_per_second": 110.91,
+      "eval_steps_per_second": 3.169,
       "step": 144
     },
     {
       "epoch": 73.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.6011058688163757,
+      "eval_runtime": 0.6566,
+      "eval_samples_per_second": 106.607,
+      "eval_steps_per_second": 3.046,
       "step": 146
     },
     {
       "epoch": 74.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5999324917793274,
+      "eval_runtime": 0.8174,
+      "eval_samples_per_second": 85.64,
+      "eval_steps_per_second": 2.447,
       "step": 148
     },
     {
       "epoch": 75.0,
       "learning_rate": 7.8125e-05,
+      "loss": 0.6878,
       "step": 150
     },
     {
       "epoch": 75.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5987647175788879,
+      "eval_runtime": 0.6275,
+      "eval_samples_per_second": 111.562,
+      "eval_steps_per_second": 3.187,
       "step": 150
     },
     {
       "epoch": 76.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5975351333618164,
+      "eval_runtime": 0.6296,
+      "eval_samples_per_second": 111.178,
+      "eval_steps_per_second": 3.177,
       "step": 152
     },
     {
       "epoch": 77.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5963953137397766,
+      "eval_runtime": 0.8044,
+      "eval_samples_per_second": 87.018,
+      "eval_steps_per_second": 2.486,
       "step": 154
     },
     {
       "epoch": 78.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5952684879302979,
+      "eval_runtime": 0.6501,
+      "eval_samples_per_second": 107.669,
+      "eval_steps_per_second": 3.076,
       "step": 156
     },
     {
       "epoch": 79.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5942099094390869,
+      "eval_runtime": 0.6469,
+      "eval_samples_per_second": 108.203,
+      "eval_steps_per_second": 3.092,
       "step": 158
     },
     {
       "epoch": 80.0,
       "learning_rate": 7.500000000000001e-05,
+      "loss": 0.6657,
       "step": 160
     },
     {
       "epoch": 80.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5932222008705139,
+      "eval_runtime": 0.8259,
+      "eval_samples_per_second": 84.754,
+      "eval_steps_per_second": 2.422,
       "step": 160
     },
     {
       "epoch": 81.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5923032760620117,
+      "eval_runtime": 0.6393,
+      "eval_samples_per_second": 109.49,
+      "eval_steps_per_second": 3.128,
       "step": 162
     },
     {
       "epoch": 82.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5914328098297119,
+      "eval_runtime": 0.6466,
+      "eval_samples_per_second": 108.262,
+      "eval_steps_per_second": 3.093,
       "step": 164
     },
     {
       "epoch": 83.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5905909538269043,
+      "eval_runtime": 0.8278,
+      "eval_samples_per_second": 84.56,
+      "eval_steps_per_second": 2.416,
       "step": 166
     },
     {
       "epoch": 84.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5897351503372192,
+      "eval_runtime": 0.6485,
+      "eval_samples_per_second": 107.935,
+      "eval_steps_per_second": 3.084,
       "step": 168
     },
     {
       "epoch": 85.0,
       "learning_rate": 7.1875e-05,
+      "loss": 0.6434,
       "step": 170
     },
     {
       "epoch": 85.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.588803768157959,
+      "eval_runtime": 0.6407,
+      "eval_samples_per_second": 109.255,
+      "eval_steps_per_second": 3.122,
       "step": 170
     },
     {
       "epoch": 86.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5878075361251831,
+      "eval_runtime": 0.7846,
+      "eval_samples_per_second": 89.216,
+      "eval_steps_per_second": 2.549,
       "step": 172
     },
     {
       "epoch": 87.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5868256688117981,
+      "eval_runtime": 0.6427,
+      "eval_samples_per_second": 108.917,
+      "eval_steps_per_second": 3.112,
       "step": 174
     },
     {
       "epoch": 88.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5859082341194153,
+      "eval_runtime": 0.6384,
+      "eval_samples_per_second": 109.65,
+      "eval_steps_per_second": 3.133,
       "step": 176
     },
     {
       "epoch": 89.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5850787162780762,
+      "eval_runtime": 0.7009,
+      "eval_samples_per_second": 99.878,
+      "eval_steps_per_second": 2.854,
       "step": 178
     },
     {
       "epoch": 90.0,
       "learning_rate": 6.875e-05,
+      "loss": 0.6825,
       "step": 180
     },
     {
       "epoch": 90.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5843265652656555,
+      "eval_runtime": 0.6343,
+      "eval_samples_per_second": 110.361,
+      "eval_steps_per_second": 3.153,
       "step": 180
     },
     {
       "epoch": 91.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5835766792297363,
+      "eval_runtime": 0.645,
+      "eval_samples_per_second": 108.529,
+      "eval_steps_per_second": 3.101,
       "step": 182
     },
     {
       "epoch": 92.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5828419923782349,
+      "eval_runtime": 0.6414,
+      "eval_samples_per_second": 109.129,
+      "eval_steps_per_second": 3.118,
       "step": 184
     },
     {
       "epoch": 93.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5822591781616211,
+      "eval_runtime": 0.6506,
+      "eval_samples_per_second": 107.585,
+      "eval_steps_per_second": 3.074,
       "step": 186
     },
     {
       "epoch": 94.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5817149877548218,
+      "eval_runtime": 0.6481,
+      "eval_samples_per_second": 108.003,
+      "eval_steps_per_second": 3.086,
       "step": 188
     },
     {
       "epoch": 95.0,
       "learning_rate": 6.562500000000001e-05,
+      "loss": 0.6695,
       "step": 190
     },
     {
       "epoch": 95.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5809342265129089,
+      "eval_runtime": 0.6426,
+      "eval_samples_per_second": 108.939,
+      "eval_steps_per_second": 3.113,
       "step": 190
     },
     {
       "epoch": 96.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5801157355308533,
+      "eval_runtime": 0.7408,
+      "eval_samples_per_second": 94.487,
+      "eval_steps_per_second": 2.7,
       "step": 192
     },
     {
       "epoch": 97.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5793442130088806,
+      "eval_runtime": 0.6328,
+      "eval_samples_per_second": 110.628,
+      "eval_steps_per_second": 3.161,
       "step": 194
     },
     {
       "epoch": 98.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5787318348884583,
+      "eval_runtime": 0.6404,
+      "eval_samples_per_second": 109.309,
+      "eval_steps_per_second": 3.123,
       "step": 196
     },
     {
       "epoch": 99.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5780039429664612,
+      "eval_runtime": 0.7894,
+      "eval_samples_per_second": 88.678,
+      "eval_steps_per_second": 2.534,
       "step": 198
     },
     {
       "epoch": 100.0,
       "learning_rate": 6.25e-05,
+      "loss": 0.6672,
       "step": 200
     },
     {
       "epoch": 100.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5772114992141724,
+      "eval_runtime": 0.6485,
+      "eval_samples_per_second": 107.942,
+      "eval_steps_per_second": 3.084,
       "step": 200
     },
     {
       "epoch": 101.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5762485265731812,
+      "eval_runtime": 0.632,
+      "eval_samples_per_second": 110.757,
+      "eval_steps_per_second": 3.164,
       "step": 202
     },
     {
       "epoch": 102.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5753609538078308,
+      "eval_runtime": 0.8156,
+      "eval_samples_per_second": 85.824,
+      "eval_steps_per_second": 2.452,
       "step": 204
     },
     {
       "epoch": 103.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5745884776115417,
+      "eval_runtime": 0.641,
+      "eval_samples_per_second": 109.197,
+      "eval_steps_per_second": 3.12,
       "step": 206
     },
     {
       "epoch": 104.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.573843777179718,
+      "eval_runtime": 0.64,
+      "eval_samples_per_second": 109.374,
+      "eval_steps_per_second": 3.125,
       "step": 208
     },
     {
       "epoch": 105.0,
       "learning_rate": 5.9375e-05,
+      "loss": 0.6569,
       "step": 210
     },
     {
       "epoch": 105.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5731338858604431,
+      "eval_runtime": 0.8165,
+      "eval_samples_per_second": 85.735,
+      "eval_steps_per_second": 2.45,
       "step": 210
     },
     {
       "epoch": 106.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5723776817321777,
+      "eval_runtime": 0.6448,
+      "eval_samples_per_second": 108.558,
+      "eval_steps_per_second": 3.102,
       "step": 212
     },
     {
       "epoch": 107.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5715596675872803,
+      "eval_runtime": 0.6552,
+      "eval_samples_per_second": 106.837,
+      "eval_steps_per_second": 3.052,
       "step": 214
     },
     {
       "epoch": 108.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5707866549491882,
+      "eval_runtime": 0.7955,
+      "eval_samples_per_second": 87.991,
+      "eval_steps_per_second": 2.514,
       "step": 216
     },
     {
       "epoch": 109.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.570074737071991,
+      "eval_runtime": 0.6364,
+      "eval_samples_per_second": 109.993,
+      "eval_steps_per_second": 3.143,
       "step": 218
     },
     {
       "epoch": 110.0,
       "learning_rate": 5.6250000000000005e-05,
+      "loss": 0.6748,
       "step": 220
     },
     {
       "epoch": 110.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5693923830986023,
+      "eval_runtime": 0.6356,
+      "eval_samples_per_second": 110.138,
+      "eval_steps_per_second": 3.147,
       "step": 220
     },
     {
       "epoch": 111.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5686994791030884,
+      "eval_runtime": 0.8207,
+      "eval_samples_per_second": 85.298,
+      "eval_steps_per_second": 2.437,
       "step": 222
     },
     {
       "epoch": 112.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5680269598960876,
+      "eval_runtime": 0.6498,
+      "eval_samples_per_second": 107.722,
+      "eval_steps_per_second": 3.078,
       "step": 224
     },
     {
       "epoch": 113.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5673888325691223,
+      "eval_runtime": 0.6711,
+      "eval_samples_per_second": 104.299,
+      "eval_steps_per_second": 2.98,
       "step": 226
     },
     {
       "epoch": 114.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5668244957923889,
+      "eval_runtime": 0.8599,
+      "eval_samples_per_second": 81.4,
+      "eval_steps_per_second": 2.326,
       "step": 228
     },
     {
       "epoch": 115.0,
       "learning_rate": 5.3125000000000004e-05,
+      "loss": 0.6388,
       "step": 230
     },
     {
       "epoch": 115.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.56624835729599,
+      "eval_runtime": 0.639,
+      "eval_samples_per_second": 109.549,
+      "eval_steps_per_second": 3.13,
       "step": 230
     },
     {
       "epoch": 116.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5657045841217041,
+      "eval_runtime": 0.6452,
+      "eval_samples_per_second": 108.495,
+      "eval_steps_per_second": 3.1,
       "step": 232
     },
     {
       "epoch": 117.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5652384757995605,
+      "eval_runtime": 0.8319,
+      "eval_samples_per_second": 84.146,
+      "eval_steps_per_second": 2.404,
       "step": 234
     },
     {
       "epoch": 118.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5648259520530701,
+      "eval_runtime": 0.6475,
+      "eval_samples_per_second": 108.103,
+      "eval_steps_per_second": 3.089,
       "step": 236
     },
     {
       "epoch": 119.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5644696354866028,
+      "eval_runtime": 0.6531,
+      "eval_samples_per_second": 107.184,
+      "eval_steps_per_second": 3.062,
       "step": 238
     },
     {
       "epoch": 120.0,
       "learning_rate": 5e-05,
+      "loss": 0.6551,
       "step": 240
     },
     {
       "epoch": 120.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5640624165534973,
+      "eval_runtime": 0.8277,
+      "eval_samples_per_second": 84.574,
+      "eval_steps_per_second": 2.416,
       "step": 240
     },
     {
       "epoch": 121.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5636399388313293,
+      "eval_runtime": 0.6478,
+      "eval_samples_per_second": 108.056,
+      "eval_steps_per_second": 3.087,
       "step": 242
     },
     {
       "epoch": 122.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.563149094581604,
+      "eval_runtime": 0.6338,
+      "eval_samples_per_second": 110.453,
+      "eval_steps_per_second": 3.156,
       "step": 244
     },
     {
       "epoch": 123.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5627174973487854,
+      "eval_runtime": 0.8111,
+      "eval_samples_per_second": 86.304,
+      "eval_steps_per_second": 2.466,
       "step": 246
     },
     {
       "epoch": 124.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.562400221824646,
+      "eval_runtime": 0.649,
+      "eval_samples_per_second": 107.86,
+      "eval_steps_per_second": 3.082,
       "step": 248
     },
     {
       "epoch": 125.0,
       "learning_rate": 4.6875e-05,
+      "loss": 0.6452,
       "step": 250
     },
     {
       "epoch": 125.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5621911287307739,
+      "eval_runtime": 0.6465,
+      "eval_samples_per_second": 108.279,
+      "eval_steps_per_second": 3.094,
       "step": 250
     },
     {
       "epoch": 126.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5620221495628357,
+      "eval_runtime": 0.827,
+      "eval_samples_per_second": 84.639,
+      "eval_steps_per_second": 2.418,
       "step": 252
     },
     {
       "epoch": 127.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5617978572845459,
+      "eval_runtime": 0.6221,
+      "eval_samples_per_second": 112.525,
+      "eval_steps_per_second": 3.215,
       "step": 254
     },
     {
       "epoch": 128.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5614616870880127,
+      "eval_runtime": 0.6384,
+      "eval_samples_per_second": 109.65,
+      "eval_steps_per_second": 3.133,
       "step": 256
     },
     {
       "epoch": 129.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5612771511077881,
+      "eval_runtime": 0.8188,
+      "eval_samples_per_second": 85.487,
+      "eval_steps_per_second": 2.442,
       "step": 258
     },
     {
       "epoch": 130.0,
       "learning_rate": 4.375e-05,
+      "loss": 0.645,
       "step": 260
     },
     {
       "epoch": 130.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5610944032669067,
+      "eval_runtime": 0.6274,
+      "eval_samples_per_second": 111.57,
+      "eval_steps_per_second": 3.188,
       "step": 260
     },
     {
       "epoch": 131.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5608205199241638,
+      "eval_runtime": 0.6351,
+      "eval_samples_per_second": 110.223,
+      "eval_steps_per_second": 3.149,
       "step": 262
     },
     {
       "epoch": 132.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5606086254119873,
+      "eval_runtime": 0.8451,
+      "eval_samples_per_second": 82.832,
+      "eval_steps_per_second": 2.367,
       "step": 264
     },
     {
       "epoch": 133.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5602155923843384,
+      "eval_runtime": 0.6314,
+      "eval_samples_per_second": 110.864,
+      "eval_steps_per_second": 3.168,
       "step": 266
     },
     {
       "epoch": 134.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5596277713775635,
+      "eval_runtime": 0.6347,
+      "eval_samples_per_second": 110.28,
+      "eval_steps_per_second": 3.151,
       "step": 268
     },
     {
       "epoch": 135.0,
       "learning_rate": 4.0625000000000005e-05,
+      "loss": 0.629,
       "step": 270
     },
     {
       "epoch": 135.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.558956503868103,
+      "eval_runtime": 0.8112,
+      "eval_samples_per_second": 86.289,
+      "eval_steps_per_second": 2.465,
       "step": 270
     },
     {
       "epoch": 136.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5582412481307983,
+      "eval_runtime": 0.6394,
+      "eval_samples_per_second": 109.485,
+      "eval_steps_per_second": 3.128,
       "step": 272
     },
     {
       "epoch": 137.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5576009750366211,
+      "eval_runtime": 0.6293,
+      "eval_samples_per_second": 111.232,
+      "eval_steps_per_second": 3.178,
       "step": 274
     },
     {
       "epoch": 138.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5571399927139282,
+      "eval_runtime": 0.8108,
+      "eval_samples_per_second": 86.33,
+      "eval_steps_per_second": 2.467,
       "step": 276
     },
     {
       "epoch": 139.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5567926168441772,
+      "eval_runtime": 0.6262,
+      "eval_samples_per_second": 111.788,
+      "eval_steps_per_second": 3.194,
       "step": 278
     },
     {
       "epoch": 140.0,
       "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.7126,
       "step": 280
     },
     {
       "epoch": 140.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.556534469127655,
+      "eval_runtime": 0.6392,
+      "eval_samples_per_second": 109.51,
+      "eval_steps_per_second": 3.129,
       "step": 280
     },
     {
       "epoch": 141.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5563255548477173,
+      "eval_runtime": 0.8384,
+      "eval_samples_per_second": 83.488,
+      "eval_steps_per_second": 2.385,
       "step": 282
     },
     {
       "epoch": 142.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5561147928237915,
       "eval_runtime": 0.6382,
+      "eval_samples_per_second": 109.687,
       "eval_steps_per_second": 3.134,
       "step": 284
     },
     {
       "epoch": 143.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5559044480323792,
+      "eval_runtime": 0.647,
+      "eval_samples_per_second": 108.191,
+      "eval_steps_per_second": 3.091,
       "step": 286
     },
     {
       "epoch": 144.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.555549681186676,
+      "eval_runtime": 0.8257,
+      "eval_samples_per_second": 84.779,
+      "eval_steps_per_second": 2.422,
       "step": 288
     },
     {
       "epoch": 145.0,
       "learning_rate": 3.4375e-05,
+      "loss": 0.669,
       "step": 290
     },
     {
       "epoch": 145.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5551820397377014,
+      "eval_runtime": 0.6311,
+      "eval_samples_per_second": 110.921,
+      "eval_steps_per_second": 3.169,
       "step": 290
     },
     {
       "epoch": 146.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.55474454164505,
+      "eval_runtime": 0.653,
+      "eval_samples_per_second": 107.193,
+      "eval_steps_per_second": 3.063,
       "step": 292
     },
     {
       "epoch": 147.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5542392134666443,
+      "eval_runtime": 0.8093,
+      "eval_samples_per_second": 86.493,
+      "eval_steps_per_second": 2.471,
       "step": 294
     },
     {
       "epoch": 148.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5537976622581482,
+      "eval_runtime": 0.6472,
+      "eval_samples_per_second": 108.161,
+      "eval_steps_per_second": 3.09,
       "step": 296
     },
     {
       "epoch": 149.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5534089803695679,
+      "eval_runtime": 0.6283,
+      "eval_samples_per_second": 111.403,
+      "eval_steps_per_second": 3.183,
       "step": 298
     },
     {
       "epoch": 150.0,
       "learning_rate": 3.125e-05,
+      "loss": 0.6481,
       "step": 300
     },
     {
       "epoch": 150.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5530030727386475,
+      "eval_runtime": 0.8284,
+      "eval_samples_per_second": 84.505,
+      "eval_steps_per_second": 2.414,
       "step": 300
     },
     {
       "epoch": 151.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5526387095451355,
+      "eval_runtime": 0.6358,
+      "eval_samples_per_second": 110.105,
+      "eval_steps_per_second": 3.146,
       "step": 302
     },
     {
       "epoch": 152.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5522416830062866,
+      "eval_runtime": 0.6285,
+      "eval_samples_per_second": 111.384,
+      "eval_steps_per_second": 3.182,
       "step": 304
     },
     {
       "epoch": 153.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5518553853034973,
+      "eval_runtime": 0.7207,
+      "eval_samples_per_second": 97.122,
+      "eval_steps_per_second": 2.775,
       "step": 306
     },
     {
       "epoch": 154.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5514690279960632,
+      "eval_runtime": 0.6359,
+      "eval_samples_per_second": 110.085,
+      "eval_steps_per_second": 3.145,
       "step": 308
     },
     {
       "epoch": 155.0,
       "learning_rate": 2.8125000000000003e-05,
+      "loss": 0.6211,
       "step": 310
     },
     {
       "epoch": 155.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5510378479957581,
+      "eval_runtime": 0.636,
+      "eval_samples_per_second": 110.056,
+      "eval_steps_per_second": 3.144,
       "step": 310
     },
     {
       "epoch": 156.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5506120920181274,
+      "eval_runtime": 0.6297,
+      "eval_samples_per_second": 111.157,
+      "eval_steps_per_second": 3.176,
       "step": 312
     },
     {
       "epoch": 157.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5502142906188965,
+      "eval_runtime": 0.6795,
+      "eval_samples_per_second": 103.02,
+      "eval_steps_per_second": 2.943,
       "step": 314
     },
     {
       "epoch": 158.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5498998761177063,
+      "eval_runtime": 0.6321,
+      "eval_samples_per_second": 110.745,
+      "eval_steps_per_second": 3.164,
       "step": 316
     },
     {
       "epoch": 159.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5495581030845642,
+      "eval_runtime": 0.6392,
+      "eval_samples_per_second": 109.52,
+      "eval_steps_per_second": 3.129,
       "step": 318
     },
     {
       "epoch": 160.0,
       "learning_rate": 2.5e-05,
+      "loss": 0.6458,
       "step": 320
     },
     {
       "epoch": 160.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5492438077926636,
+      "eval_runtime": 0.8024,
+      "eval_samples_per_second": 87.237,
+      "eval_steps_per_second": 2.492,
       "step": 320
     },
     {
       "epoch": 161.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5489979982376099,
+      "eval_runtime": 0.6575,
+      "eval_samples_per_second": 106.471,
+      "eval_steps_per_second": 3.042,
       "step": 322
     },
     {
       "epoch": 162.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5487762689590454,
+      "eval_runtime": 0.6515,
+      "eval_samples_per_second": 107.45,
+      "eval_steps_per_second": 3.07,
       "step": 324
     },
     {
       "epoch": 163.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.548595130443573,
+      "eval_runtime": 0.8069,
+      "eval_samples_per_second": 86.752,
+      "eval_steps_per_second": 2.479,
       "step": 326
     },
     {
       "epoch": 164.0,
       "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5483713746070862,
+      "eval_runtime": 0.6447,
+      "eval_samples_per_second": 108.582,
+      "eval_steps_per_second": 3.102,
       "step": 328
     },
     {
       "epoch": 165.0,
       "learning_rate": 2.1875e-05,
+      "loss": 0.6317,
       "step": 330
     },
     {
       "epoch": 165.0,
+      "eval_accuracy": 0.8142857142857143,
+      "eval_loss": 0.5481104254722595,
+      "eval_runtime": 0.6486,
+      "eval_samples_per_second": 107.926,
+      "eval_steps_per_second": 3.084,
       "step": 330
     },
     {
       "epoch": 166.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5478586554527283,
+      "eval_runtime": 0.8209,
+      "eval_samples_per_second": 85.268,
+      "eval_steps_per_second": 2.436,
       "step": 332
     },
     {
       "epoch": 167.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5475797653198242,
+      "eval_runtime": 0.7417,
+      "eval_samples_per_second": 94.381,
+      "eval_steps_per_second": 2.697,
       "step": 334
     },
     {
       "epoch": 168.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5473471879959106,
+      "eval_runtime": 0.6501,
+      "eval_samples_per_second": 107.671,
+      "eval_steps_per_second": 3.076,
       "step": 336
     },
     {
       "epoch": 169.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5471236705780029,
+      "eval_runtime": 0.7944,
+      "eval_samples_per_second": 88.115,
+      "eval_steps_per_second": 2.518,
       "step": 338
     },
     {
       "epoch": 170.0,
       "learning_rate": 1.8750000000000002e-05,
+      "loss": 0.6154,
       "step": 340
     },
     {
       "epoch": 170.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5469514727592468,
+      "eval_runtime": 0.6378,
+      "eval_samples_per_second": 109.76,
+      "eval_steps_per_second": 3.136,
       "step": 340
     },
     {
       "epoch": 171.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5467889308929443,
+      "eval_runtime": 0.6433,
+      "eval_samples_per_second": 108.819,
+      "eval_steps_per_second": 3.109,
       "step": 342
     },
     {
       "epoch": 172.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5466357469558716,
+      "eval_runtime": 0.8146,
+      "eval_samples_per_second": 85.93,
+      "eval_steps_per_second": 2.455,
       "step": 344
     },
     {
       "epoch": 173.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5464411973953247,
+      "eval_runtime": 0.6826,
+      "eval_samples_per_second": 102.554,
+      "eval_steps_per_second": 2.93,
       "step": 346
     },
     {
       "epoch": 174.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5462457537651062,
+      "eval_runtime": 0.6413,
+      "eval_samples_per_second": 109.146,
+      "eval_steps_per_second": 3.118,
       "step": 348
     },
     {
       "epoch": 175.0,
       "learning_rate": 1.5625e-05,
+      "loss": 0.6323,
       "step": 350
     },
     {
       "epoch": 175.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5460384488105774,
+      "eval_runtime": 0.8055,
+      "eval_samples_per_second": 86.906,
+      "eval_steps_per_second": 2.483,
       "step": 350
     },
     {
       "epoch": 176.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.545864999294281,
+      "eval_runtime": 0.635,
+      "eval_samples_per_second": 110.23,
+      "eval_steps_per_second": 3.149,
       "step": 352
     },
     {
       "epoch": 177.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.54571932554245,
+      "eval_runtime": 0.6362,
+      "eval_samples_per_second": 110.035,
+      "eval_steps_per_second": 3.144,
       "step": 354
     },
     {
       "epoch": 178.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5455992817878723,
+      "eval_runtime": 0.8155,
+      "eval_samples_per_second": 85.839,
+      "eval_steps_per_second": 2.453,
       "step": 356
     },
     {
       "epoch": 179.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5454698801040649,
+      "eval_runtime": 0.6543,
+      "eval_samples_per_second": 106.992,
+      "eval_steps_per_second": 3.057,
       "step": 358
     },
     {
       "epoch": 180.0,
       "learning_rate": 1.25e-05,
+      "loss": 0.6331,
       "step": 360
     },
     {
       "epoch": 180.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5453290343284607,
+      "eval_runtime": 0.6499,
+      "eval_samples_per_second": 107.716,
+      "eval_steps_per_second": 3.078,
       "step": 360
     },
     {
       "epoch": 181.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5451884865760803,
+      "eval_runtime": 0.8265,
+      "eval_samples_per_second": 84.691,
+      "eval_steps_per_second": 2.42,
       "step": 362
     },
     {
       "epoch": 182.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5450613498687744,
+      "eval_runtime": 0.6389,
+      "eval_samples_per_second": 109.556,
+      "eval_steps_per_second": 3.13,
       "step": 364
     },
     {
       "epoch": 183.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5449284911155701,
+      "eval_runtime": 0.6467,
+      "eval_samples_per_second": 108.243,
+      "eval_steps_per_second": 3.093,
       "step": 366
     },
     {
       "epoch": 184.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5448177456855774,
+      "eval_runtime": 0.825,
+      "eval_samples_per_second": 84.846,
+      "eval_steps_per_second": 2.424,
       "step": 368
     },
     {
       "epoch": 185.0,
       "learning_rate": 9.375000000000001e-06,
+      "loss": 0.6333,
       "step": 370
     },
     {
       "epoch": 185.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.544733464717865,
+      "eval_runtime": 0.6541,
+      "eval_samples_per_second": 107.012,
+      "eval_steps_per_second": 3.057,
       "step": 370
     },
     {
       "epoch": 186.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5446553230285645,
+      "eval_runtime": 0.6491,
+      "eval_samples_per_second": 107.838,
+      "eval_steps_per_second": 3.081,
       "step": 372
     },
     {
       "epoch": 187.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5445802211761475,
+      "eval_runtime": 0.8184,
+      "eval_samples_per_second": 85.533,
+      "eval_steps_per_second": 2.444,
       "step": 374
     },
     {
       "epoch": 188.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5445207357406616,
+      "eval_runtime": 0.6378,
+      "eval_samples_per_second": 109.754,
+      "eval_steps_per_second": 3.136,
       "step": 376
     },
     {
       "epoch": 189.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5444640517234802,
+      "eval_runtime": 0.6708,
+      "eval_samples_per_second": 104.36,
+      "eval_steps_per_second": 2.982,
       "step": 378
     },
     {
       "epoch": 190.0,
       "learning_rate": 6.25e-06,
+      "loss": 0.608,
       "step": 380
     },
     {
       "epoch": 190.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.544407069683075,
+      "eval_runtime": 0.8392,
+      "eval_samples_per_second": 83.416,
+      "eval_steps_per_second": 2.383,
       "step": 380
     },
     {
       "epoch": 191.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5443536043167114,
+      "eval_runtime": 0.6405,
+      "eval_samples_per_second": 109.293,
+      "eval_steps_per_second": 3.123,
       "step": 382
     },
     {
       "epoch": 192.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5443087816238403,
+      "eval_runtime": 0.6431,
+      "eval_samples_per_second": 108.85,
+      "eval_steps_per_second": 3.11,
       "step": 384
     },
     {
       "epoch": 193.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5442724823951721,
+      "eval_runtime": 0.8311,
+      "eval_samples_per_second": 84.221,
+      "eval_steps_per_second": 2.406,
       "step": 386
     },
     {
       "epoch": 194.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5442416667938232,
+      "eval_runtime": 0.6416,
+      "eval_samples_per_second": 109.095,
+      "eval_steps_per_second": 3.117,
       "step": 388
     },
     {
       "epoch": 195.0,
       "learning_rate": 3.125e-06,
+      "loss": 0.6155,
       "step": 390
     },
     {
       "epoch": 195.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5442100763320923,
+      "eval_runtime": 0.6472,
+      "eval_samples_per_second": 108.158,
+      "eval_steps_per_second": 3.09,
       "step": 390
     },
     {
       "epoch": 196.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5441816449165344,
+      "eval_runtime": 0.8234,
+      "eval_samples_per_second": 85.016,
+      "eval_steps_per_second": 2.429,
       "step": 392
     },
     {
       "epoch": 197.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5441582202911377,
+      "eval_runtime": 0.6411,
+      "eval_samples_per_second": 109.183,
+      "eval_steps_per_second": 3.12,
       "step": 394
     },
     {
       "epoch": 198.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5441429615020752,
+      "eval_runtime": 0.6367,
+      "eval_samples_per_second": 109.941,
+      "eval_steps_per_second": 3.141,
       "step": 396
     },
     {
       "epoch": 199.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5441319346427917,
+      "eval_runtime": 0.8204,
+      "eval_samples_per_second": 85.32,
+      "eval_steps_per_second": 2.438,
       "step": 398
     },
     {
       "epoch": 200.0,
       "learning_rate": 0.0,
+      "loss": 0.6272,
       "step": 400
     },
     {
       "epoch": 200.0,
+      "eval_accuracy": 0.8285714285714286,
+      "eval_loss": 0.5441268086433411,
+      "eval_runtime": 0.646,
+      "eval_samples_per_second": 108.365,
+      "eval_steps_per_second": 3.096,
       "step": 400
     },
     {
       "epoch": 200.0,
       "step": 400,
       "total_flos": 2.23710151698432e+18,
+      "train_loss": 0.6791047298908234,
+      "train_runtime": 1022.1437,
+      "train_samples_per_second": 88.05,
+      "train_steps_per_second": 0.391
     }
   ],
   "logging_steps": 10,