3rd epoch

Browse files

Files changed (6) hide show

adapter_model.safetensors +1 -1
compressa-config.json +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +3 -1449

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6093a5b775df40fd252098bbd99075cdb6a5d9ed155662a597d86f6b7a873cb
 size 27297544

 version https://git-lfs.github.com/spec/v1
+oid sha256:703557f4188aa469524b4f3e4e0c1ec07378f5b46172241444e83d8b22ff18d2
 size 27297544

compressa-config.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-    "model_name": "llama_3_fp_epoch_4",
     "torch_dtype": "torch.float16",
     "device_map": "auto",
     "trust_remote_code": false,

 {
+    "model_name": "llama_3_fp_epoch_3",
     "torch_dtype": "torch.float16",
     "device_map": "auto",
     "trust_remote_code": false,

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2db7654e77aaa548cc3911fa5d2bd7b1bb3357776d5c7dc2edbc222ce8dea4a2
 size 54741498

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5cf4a89f17db7f467339252db1577234ba169051f4361835f08564e5cc20904
 size 54741498

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4a7d167cc0b54c93d76464aeb107ff1a05a7a83704a1406c15657be54bfd689
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4eeeb62a720c4b597a880e07f8cb750bf18c118e1971a65ea3ef58761ce474cc
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2da190a923ee76753674b1d1c5a16cda1ee1e8ebbc5962294eb015f30fcb76d8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:99dd3c2fb764f31a43e0a9282ffd1057f18692ce958664acb9811c310e4a5fe0
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 20,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4321,1452 +4321,6 @@
       "learning_rate": 0.0001,
       "loss": 0.716,
       "step": 675
-    },
-    {
-      "epoch": 3.0,
-      "learning_rate": 0.0001,
-      "loss": 0.7913,
-      "step": 676
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 0.0001,
-      "loss": 0.6763,
-      "step": 677
-    },
-    {
-      "epoch": 3.01,
-      "learning_rate": 0.0001,
-      "loss": 0.6952,
-      "step": 678
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 0.0001,
-      "loss": 0.6933,
-      "step": 679
-    },
-    {
-      "epoch": 3.02,
-      "learning_rate": 0.0001,
-      "loss": 0.7001,
-      "step": 680
-    },
-    {
-      "epoch": 3.02,
-      "eval_loss": 0.7300973534584045,
-      "eval_runtime": 17.9948,
-      "eval_samples_per_second": 4.501,
-      "eval_steps_per_second": 1.167,
-      "step": 680
-    },
-    {
-      "epoch": 3.03,
-      "learning_rate": 0.0001,
-      "loss": 0.6507,
-      "step": 681
-    },
-    {
-      "epoch": 3.03,
-      "learning_rate": 0.0001,
-      "loss": 0.6635,
-      "step": 682
-    },
-    {
-      "epoch": 3.04,
-      "learning_rate": 0.0001,
-      "loss": 0.6627,
-      "step": 683
-    },
-    {
-      "epoch": 3.04,
-      "learning_rate": 0.0001,
-      "loss": 0.6461,
-      "step": 684
-    },
-    {
-      "epoch": 3.04,
-      "learning_rate": 0.0001,
-      "loss": 0.6493,
-      "step": 685
-    },
-    {
-      "epoch": 3.05,
-      "learning_rate": 0.0001,
-      "loss": 0.6392,
-      "step": 686
-    },
-    {
-      "epoch": 3.05,
-      "learning_rate": 0.0001,
-      "loss": 0.6457,
-      "step": 687
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 0.0001,
-      "loss": 0.6702,
-      "step": 688
-    },
-    {
-      "epoch": 3.06,
-      "learning_rate": 0.0001,
-      "loss": 0.6652,
-      "step": 689
-    },
-    {
-      "epoch": 3.07,
-      "learning_rate": 0.0001,
-      "loss": 0.6266,
-      "step": 690
-    },
-    {
-      "epoch": 3.07,
-      "learning_rate": 0.0001,
-      "loss": 0.6648,
-      "step": 691
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 0.0001,
-      "loss": 0.5778,
-      "step": 692
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 0.0001,
-      "loss": 0.6581,
-      "step": 693
-    },
-    {
-      "epoch": 3.08,
-      "learning_rate": 0.0001,
-      "loss": 0.7089,
-      "step": 694
-    },
-    {
-      "epoch": 3.09,
-      "learning_rate": 0.0001,
-      "loss": 0.6478,
-      "step": 695
-    },
-    {
-      "epoch": 3.09,
-      "learning_rate": 0.0001,
-      "loss": 0.5843,
-      "step": 696
-    },
-    {
-      "epoch": 3.1,
-      "learning_rate": 0.0001,
-      "loss": 0.5995,
-      "step": 697
-    },
-    {
-      "epoch": 3.1,
-      "learning_rate": 0.0001,
-      "loss": 0.6076,
-      "step": 698
-    },
-    {
-      "epoch": 3.11,
-      "learning_rate": 0.0001,
-      "loss": 0.7328,
-      "step": 699
-    },
-    {
-      "epoch": 3.11,
-      "learning_rate": 0.0001,
-      "loss": 0.5725,
-      "step": 700
-    },
-    {
-      "epoch": 3.11,
-      "eval_loss": 0.7330772280693054,
-      "eval_runtime": 18.8269,
-      "eval_samples_per_second": 4.302,
-      "eval_steps_per_second": 1.115,
-      "step": 700
-    },
-    {
-      "epoch": 3.12,
-      "learning_rate": 0.0001,
-      "loss": 0.6693,
-      "step": 701
-    },
-    {
-      "epoch": 3.12,
-      "learning_rate": 0.0001,
-      "loss": 0.6445,
-      "step": 702
-    },
-    {
-      "epoch": 3.12,
-      "learning_rate": 0.0001,
-      "loss": 0.6478,
-      "step": 703
-    },
-    {
-      "epoch": 3.13,
-      "learning_rate": 0.0001,
-      "loss": 0.661,
-      "step": 704
-    },
-    {
-      "epoch": 3.13,
-      "learning_rate": 0.0001,
-      "loss": 0.6351,
-      "step": 705
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 0.0001,
-      "loss": 0.5796,
-      "step": 706
-    },
-    {
-      "epoch": 3.14,
-      "learning_rate": 0.0001,
-      "loss": 0.607,
-      "step": 707
-    },
-    {
-      "epoch": 3.15,
-      "learning_rate": 0.0001,
-      "loss": 0.6227,
-      "step": 708
-    },
-    {
-      "epoch": 3.15,
-      "learning_rate": 0.0001,
-      "loss": 0.6283,
-      "step": 709
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 0.0001,
-      "loss": 0.6654,
-      "step": 710
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 0.0001,
-      "loss": 0.6348,
-      "step": 711
-    },
-    {
-      "epoch": 3.16,
-      "learning_rate": 0.0001,
-      "loss": 0.5861,
-      "step": 712
-    },
-    {
-      "epoch": 3.17,
-      "learning_rate": 0.0001,
-      "loss": 0.5794,
-      "step": 713
-    },
-    {
-      "epoch": 3.17,
-      "learning_rate": 0.0001,
-      "loss": 0.6011,
-      "step": 714
-    },
-    {
-      "epoch": 3.18,
-      "learning_rate": 0.0001,
-      "loss": 0.5992,
-      "step": 715
-    },
-    {
-      "epoch": 3.18,
-      "learning_rate": 0.0001,
-      "loss": 0.624,
-      "step": 716
-    },
-    {
-      "epoch": 3.19,
-      "learning_rate": 0.0001,
-      "loss": 0.636,
-      "step": 717
-    },
-    {
-      "epoch": 3.19,
-      "learning_rate": 0.0001,
-      "loss": 0.5255,
-      "step": 718
-    },
-    {
-      "epoch": 3.2,
-      "learning_rate": 0.0001,
-      "loss": 0.6403,
-      "step": 719
-    },
-    {
-      "epoch": 3.2,
-      "learning_rate": 0.0001,
-      "loss": 0.5832,
-      "step": 720
-    },
-    {
-      "epoch": 3.2,
-      "eval_loss": 0.7388717532157898,
-      "eval_runtime": 18.8118,
-      "eval_samples_per_second": 4.306,
-      "eval_steps_per_second": 1.116,
-      "step": 720
-    },
-    {
-      "epoch": 3.2,
-      "learning_rate": 0.0001,
-      "loss": 0.5699,
-      "step": 721
-    },
-    {
-      "epoch": 3.21,
-      "learning_rate": 0.0001,
-      "loss": 0.6878,
-      "step": 722
-    },
-    {
-      "epoch": 3.21,
-      "learning_rate": 0.0001,
-      "loss": 0.5529,
-      "step": 723
-    },
-    {
-      "epoch": 3.22,
-      "learning_rate": 0.0001,
-      "loss": 0.5619,
-      "step": 724
-    },
-    {
-      "epoch": 3.22,
-      "learning_rate": 0.0001,
-      "loss": 0.5764,
-      "step": 725
-    },
-    {
-      "epoch": 3.23,
-      "learning_rate": 0.0001,
-      "loss": 0.7349,
-      "step": 726
-    },
-    {
-      "epoch": 3.23,
-      "learning_rate": 0.0001,
-      "loss": 0.7237,
-      "step": 727
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 0.0001,
-      "loss": 0.6804,
-      "step": 728
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 0.0001,
-      "loss": 0.6911,
-      "step": 729
-    },
-    {
-      "epoch": 3.24,
-      "learning_rate": 0.0001,
-      "loss": 0.6582,
-      "step": 730
-    },
-    {
-      "epoch": 3.25,
-      "learning_rate": 0.0001,
-      "loss": 0.6994,
-      "step": 731
-    },
-    {
-      "epoch": 3.25,
-      "learning_rate": 0.0001,
-      "loss": 0.6864,
-      "step": 732
-    },
-    {
-      "epoch": 3.26,
-      "learning_rate": 0.0001,
-      "loss": 0.7323,
-      "step": 733
-    },
-    {
-      "epoch": 3.26,
-      "learning_rate": 0.0001,
-      "loss": 0.6921,
-      "step": 734
-    },
-    {
-      "epoch": 3.27,
-      "learning_rate": 0.0001,
-      "loss": 0.6115,
-      "step": 735
-    },
-    {
-      "epoch": 3.27,
-      "learning_rate": 0.0001,
-      "loss": 0.6423,
-      "step": 736
-    },
-    {
-      "epoch": 3.28,
-      "learning_rate": 0.0001,
-      "loss": 0.629,
-      "step": 737
-    },
-    {
-      "epoch": 3.28,
-      "learning_rate": 0.0001,
-      "loss": 0.6512,
-      "step": 738
-    },
-    {
-      "epoch": 3.28,
-      "learning_rate": 0.0001,
-      "loss": 0.6384,
-      "step": 739
-    },
-    {
-      "epoch": 3.29,
-      "learning_rate": 0.0001,
-      "loss": 0.629,
-      "step": 740
-    },
-    {
-      "epoch": 3.29,
-      "eval_loss": 0.7320723533630371,
-      "eval_runtime": 18.8594,
-      "eval_samples_per_second": 4.295,
-      "eval_steps_per_second": 1.114,
-      "step": 740
-    },
-    {
-      "epoch": 3.29,
-      "learning_rate": 0.0001,
-      "loss": 0.6447,
-      "step": 741
-    },
-    {
-      "epoch": 3.3,
-      "learning_rate": 0.0001,
-      "loss": 0.5919,
-      "step": 742
-    },
-    {
-      "epoch": 3.3,
-      "learning_rate": 0.0001,
-      "loss": 0.6678,
-      "step": 743
-    },
-    {
-      "epoch": 3.31,
-      "learning_rate": 0.0001,
-      "loss": 0.5893,
-      "step": 744
-    },
-    {
-      "epoch": 3.31,
-      "learning_rate": 0.0001,
-      "loss": 0.593,
-      "step": 745
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 0.0001,
-      "loss": 0.6514,
-      "step": 746
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 0.0001,
-      "loss": 0.6722,
-      "step": 747
-    },
-    {
-      "epoch": 3.32,
-      "learning_rate": 0.0001,
-      "loss": 0.5961,
-      "step": 748
-    },
-    {
-      "epoch": 3.33,
-      "learning_rate": 0.0001,
-      "loss": 0.6213,
-      "step": 749
-    },
-    {
-      "epoch": 3.33,
-      "learning_rate": 0.0001,
-      "loss": 0.6091,
-      "step": 750
-    },
-    {
-      "epoch": 3.34,
-      "learning_rate": 0.0001,
-      "loss": 0.6327,
-      "step": 751
-    },
-    {
-      "epoch": 3.34,
-      "learning_rate": 0.0001,
-      "loss": 0.6781,
-      "step": 752
-    },
-    {
-      "epoch": 3.35,
-      "learning_rate": 0.0001,
-      "loss": 0.609,
-      "step": 753
-    },
-    {
-      "epoch": 3.35,
-      "learning_rate": 0.0001,
-      "loss": 0.6491,
-      "step": 754
-    },
-    {
-      "epoch": 3.36,
-      "learning_rate": 0.0001,
-      "loss": 0.6231,
-      "step": 755
-    },
-    {
-      "epoch": 3.36,
-      "learning_rate": 0.0001,
-      "loss": 0.6353,
-      "step": 756
-    },
-    {
-      "epoch": 3.36,
-      "learning_rate": 0.0001,
-      "loss": 0.7171,
-      "step": 757
-    },
-    {
-      "epoch": 3.37,
-      "learning_rate": 0.0001,
-      "loss": 0.702,
-      "step": 758
-    },
-    {
-      "epoch": 3.37,
-      "learning_rate": 0.0001,
-      "loss": 0.6205,
-      "step": 759
-    },
-    {
-      "epoch": 3.38,
-      "learning_rate": 0.0001,
-      "loss": 0.6037,
-      "step": 760
-    },
-    {
-      "epoch": 3.38,
-      "eval_loss": 0.735625147819519,
-      "eval_runtime": 18.9293,
-      "eval_samples_per_second": 4.279,
-      "eval_steps_per_second": 1.109,
-      "step": 760
-    },
-    {
-      "epoch": 3.38,
-      "learning_rate": 0.0001,
-      "loss": 0.6143,
-      "step": 761
-    },
-    {
-      "epoch": 3.39,
-      "learning_rate": 0.0001,
-      "loss": 0.6124,
-      "step": 762
-    },
-    {
-      "epoch": 3.39,
-      "learning_rate": 0.0001,
-      "loss": 0.5528,
-      "step": 763
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 0.0001,
-      "loss": 0.5531,
-      "step": 764
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 0.0001,
-      "loss": 0.5917,
-      "step": 765
-    },
-    {
-      "epoch": 3.4,
-      "learning_rate": 0.0001,
-      "loss": 0.5962,
-      "step": 766
-    },
-    {
-      "epoch": 3.41,
-      "learning_rate": 0.0001,
-      "loss": 0.6423,
-      "step": 767
-    },
-    {
-      "epoch": 3.41,
-      "learning_rate": 0.0001,
-      "loss": 0.613,
-      "step": 768
-    },
-    {
-      "epoch": 3.42,
-      "learning_rate": 0.0001,
-      "loss": 0.6326,
-      "step": 769
-    },
-    {
-      "epoch": 3.42,
-      "learning_rate": 0.0001,
-      "loss": 0.6229,
-      "step": 770
-    },
-    {
-      "epoch": 3.43,
-      "learning_rate": 0.0001,
-      "loss": 0.6613,
-      "step": 771
-    },
-    {
-      "epoch": 3.43,
-      "learning_rate": 0.0001,
-      "loss": 0.6048,
-      "step": 772
-    },
-    {
-      "epoch": 3.44,
-      "learning_rate": 0.0001,
-      "loss": 0.5452,
-      "step": 773
-    },
-    {
-      "epoch": 3.44,
-      "learning_rate": 0.0001,
-      "loss": 0.5207,
-      "step": 774
-    },
-    {
-      "epoch": 3.44,
-      "learning_rate": 0.0001,
-      "loss": 0.5988,
-      "step": 775
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 0.0001,
-      "loss": 0.7064,
-      "step": 776
-    },
-    {
-      "epoch": 3.45,
-      "learning_rate": 0.0001,
-      "loss": 0.6414,
-      "step": 777
-    },
-    {
-      "epoch": 3.46,
-      "learning_rate": 0.0001,
-      "loss": 0.7127,
-      "step": 778
-    },
-    {
-      "epoch": 3.46,
-      "learning_rate": 0.0001,
-      "loss": 0.7062,
-      "step": 779
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 0.0001,
-      "loss": 0.7391,
-      "step": 780
-    },
-    {
-      "epoch": 3.47,
-      "eval_loss": 0.7382710576057434,
-      "eval_runtime": 19.0816,
-      "eval_samples_per_second": 4.245,
-      "eval_steps_per_second": 1.101,
-      "step": 780
-    },
-    {
-      "epoch": 3.47,
-      "learning_rate": 0.0001,
-      "loss": 0.7217,
-      "step": 781
-    },
-    {
-      "epoch": 3.48,
-      "learning_rate": 0.0001,
-      "loss": 0.6948,
-      "step": 782
-    },
-    {
-      "epoch": 3.48,
-      "learning_rate": 0.0001,
-      "loss": 0.7053,
-      "step": 783
-    },
-    {
-      "epoch": 3.48,
-      "learning_rate": 0.0001,
-      "loss": 0.7944,
-      "step": 784
-    },
-    {
-      "epoch": 3.49,
-      "learning_rate": 0.0001,
-      "loss": 0.683,
-      "step": 785
-    },
-    {
-      "epoch": 3.49,
-      "learning_rate": 0.0001,
-      "loss": 0.7693,
-      "step": 786
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 0.0001,
-      "loss": 0.6613,
-      "step": 787
-    },
-    {
-      "epoch": 3.5,
-      "learning_rate": 0.0001,
-      "loss": 0.6312,
-      "step": 788
-    },
-    {
-      "epoch": 3.51,
-      "learning_rate": 0.0001,
-      "loss": 0.7292,
-      "step": 789
-    },
-    {
-      "epoch": 3.51,
-      "learning_rate": 0.0001,
-      "loss": 0.6532,
-      "step": 790
-    },
-    {
-      "epoch": 3.52,
-      "learning_rate": 0.0001,
-      "loss": 0.6847,
-      "step": 791
-    },
-    {
-      "epoch": 3.52,
-      "learning_rate": 0.0001,
-      "loss": 0.6814,
-      "step": 792
-    },
-    {
-      "epoch": 3.52,
-      "learning_rate": 0.0001,
-      "loss": 0.6137,
-      "step": 793
-    },
-    {
-      "epoch": 3.53,
-      "learning_rate": 0.0001,
-      "loss": 0.6355,
-      "step": 794
-    },
-    {
-      "epoch": 3.53,
-      "learning_rate": 0.0001,
-      "loss": 0.5924,
-      "step": 795
-    },
-    {
-      "epoch": 3.54,
-      "learning_rate": 0.0001,
-      "loss": 0.5793,
-      "step": 796
-    },
-    {
-      "epoch": 3.54,
-      "learning_rate": 0.0001,
-      "loss": 0.5977,
-      "step": 797
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 0.0001,
-      "loss": 0.7161,
-      "step": 798
-    },
-    {
-      "epoch": 3.55,
-      "learning_rate": 0.0001,
-      "loss": 0.6635,
-      "step": 799
-    },
-    {
-      "epoch": 3.56,
-      "learning_rate": 0.0001,
-      "loss": 0.6454,
-      "step": 800
-    },
-    {
-      "epoch": 3.56,
-      "eval_loss": 0.7320914268493652,
-      "eval_runtime": 19.2836,
-      "eval_samples_per_second": 4.2,
-      "eval_steps_per_second": 1.089,
-      "step": 800
-    },
-    {
-      "epoch": 3.56,
-      "learning_rate": 0.0001,
-      "loss": 0.642,
-      "step": 801
-    },
-    {
-      "epoch": 3.56,
-      "learning_rate": 0.0001,
-      "loss": 0.5794,
-      "step": 802
-    },
-    {
-      "epoch": 3.57,
-      "learning_rate": 0.0001,
-      "loss": 0.637,
-      "step": 803
-    },
-    {
-      "epoch": 3.57,
-      "learning_rate": 0.0001,
-      "loss": 0.6212,
-      "step": 804
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 0.0001,
-      "loss": 0.6635,
-      "step": 805
-    },
-    {
-      "epoch": 3.58,
-      "learning_rate": 0.0001,
-      "loss": 0.6311,
-      "step": 806
-    },
-    {
-      "epoch": 3.59,
-      "learning_rate": 0.0001,
-      "loss": 0.5901,
-      "step": 807
-    },
-    {
-      "epoch": 3.59,
-      "learning_rate": 0.0001,
-      "loss": 0.648,
-      "step": 808
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 0.0001,
-      "loss": 0.6348,
-      "step": 809
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 0.0001,
-      "loss": 0.6346,
-      "step": 810
-    },
-    {
-      "epoch": 3.6,
-      "learning_rate": 0.0001,
-      "loss": 0.6892,
-      "step": 811
-    },
-    {
-      "epoch": 3.61,
-      "learning_rate": 0.0001,
-      "loss": 0.6337,
-      "step": 812
-    },
-    {
-      "epoch": 3.61,
-      "learning_rate": 0.0001,
-      "loss": 0.6348,
-      "step": 813
-    },
-    {
-      "epoch": 3.62,
-      "learning_rate": 0.0001,
-      "loss": 0.6576,
-      "step": 814
-    },
-    {
-      "epoch": 3.62,
-      "learning_rate": 0.0001,
-      "loss": 0.6202,
-      "step": 815
-    },
-    {
-      "epoch": 3.63,
-      "learning_rate": 0.0001,
-      "loss": 0.6148,
-      "step": 816
-    },
-    {
-      "epoch": 3.63,
-      "learning_rate": 0.0001,
-      "loss": 0.668,
-      "step": 817
-    },
-    {
-      "epoch": 3.64,
-      "learning_rate": 0.0001,
-      "loss": 0.6663,
-      "step": 818
-    },
-    {
-      "epoch": 3.64,
-      "learning_rate": 0.0001,
-      "loss": 0.6004,
-      "step": 819
-    },
-    {
-      "epoch": 3.64,
-      "learning_rate": 0.0001,
-      "loss": 0.5944,
-      "step": 820
-    },
-    {
-      "epoch": 3.64,
-      "eval_loss": 0.7350344061851501,
-      "eval_runtime": 19.0874,
-      "eval_samples_per_second": 4.244,
-      "eval_steps_per_second": 1.1,
-      "step": 820
-    },
-    {
-      "epoch": 3.65,
-      "learning_rate": 0.0001,
-      "loss": 0.5598,
-      "step": 821
-    },
-    {
-      "epoch": 3.65,
-      "learning_rate": 0.0001,
-      "loss": 0.5836,
-      "step": 822
-    },
-    {
-      "epoch": 3.66,
-      "learning_rate": 0.0001,
-      "loss": 0.5664,
-      "step": 823
-    },
-    {
-      "epoch": 3.66,
-      "learning_rate": 0.0001,
-      "loss": 0.7259,
-      "step": 824
-    },
-    {
-      "epoch": 3.67,
-      "learning_rate": 0.0001,
-      "loss": 0.5605,
-      "step": 825
-    },
-    {
-      "epoch": 3.67,
-      "learning_rate": 0.0001,
-      "loss": 0.7895,
-      "step": 826
-    },
-    {
-      "epoch": 3.68,
-      "learning_rate": 0.0001,
-      "loss": 0.6594,
-      "step": 827
-    },
-    {
-      "epoch": 3.68,
-      "learning_rate": 0.0001,
-      "loss": 0.6306,
-      "step": 828
-    },
-    {
-      "epoch": 3.68,
-      "learning_rate": 0.0001,
-      "loss": 0.7212,
-      "step": 829
-    },
-    {
-      "epoch": 3.69,
-      "learning_rate": 0.0001,
-      "loss": 0.6964,
-      "step": 830
-    },
-    {
-      "epoch": 3.69,
-      "learning_rate": 0.0001,
-      "loss": 0.7085,
-      "step": 831
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 0.0001,
-      "loss": 0.7088,
-      "step": 832
-    },
-    {
-      "epoch": 3.7,
-      "learning_rate": 0.0001,
-      "loss": 0.7106,
-      "step": 833
-    },
-    {
-      "epoch": 3.71,
-      "learning_rate": 0.0001,
-      "loss": 0.6695,
-      "step": 834
-    },
-    {
-      "epoch": 3.71,
-      "learning_rate": 0.0001,
-      "loss": 0.6925,
-      "step": 835
-    },
-    {
-      "epoch": 3.72,
-      "learning_rate": 0.0001,
-      "loss": 0.6677,
-      "step": 836
-    },
-    {
-      "epoch": 3.72,
-      "learning_rate": 0.0001,
-      "loss": 0.6597,
-      "step": 837
-    },
-    {
-      "epoch": 3.72,
-      "learning_rate": 0.0001,
-      "loss": 0.6428,
-      "step": 838
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 0.0001,
-      "loss": 0.6708,
-      "step": 839
-    },
-    {
-      "epoch": 3.73,
-      "learning_rate": 0.0001,
-      "loss": 0.6382,
-      "step": 840
-    },
-    {
-      "epoch": 3.73,
-      "eval_loss": 0.7277283668518066,
-      "eval_runtime": 19.254,
-      "eval_samples_per_second": 4.207,
-      "eval_steps_per_second": 1.091,
-      "step": 840
-    },
-    {
-      "epoch": 3.74,
-      "learning_rate": 0.0001,
-      "loss": 0.6431,
-      "step": 841
-    },
-    {
-      "epoch": 3.74,
-      "learning_rate": 0.0001,
-      "loss": 0.5893,
-      "step": 842
-    },
-    {
-      "epoch": 3.75,
-      "learning_rate": 0.0001,
-      "loss": 0.5862,
-      "step": 843
-    },
-    {
-      "epoch": 3.75,
-      "learning_rate": 0.0001,
-      "loss": 0.608,
-      "step": 844
-    },
-    {
-      "epoch": 3.76,
-      "learning_rate": 0.0001,
-      "loss": 0.5948,
-      "step": 845
-    },
-    {
-      "epoch": 3.76,
-      "learning_rate": 0.0001,
-      "loss": 0.7078,
-      "step": 846
-    },
-    {
-      "epoch": 3.76,
-      "learning_rate": 0.0001,
-      "loss": 0.6372,
-      "step": 847
-    },
-    {
-      "epoch": 3.77,
-      "learning_rate": 0.0001,
-      "loss": 0.6611,
-      "step": 848
-    },
-    {
-      "epoch": 3.77,
-      "learning_rate": 0.0001,
-      "loss": 0.6026,
-      "step": 849
-    },
-    {
-      "epoch": 3.78,
-      "learning_rate": 0.0001,
-      "loss": 0.651,
-      "step": 850
-    },
-    {
-      "epoch": 3.78,
-      "learning_rate": 0.0001,
-      "loss": 0.6261,
-      "step": 851
-    },
-    {
-      "epoch": 3.79,
-      "learning_rate": 0.0001,
-      "loss": 0.6362,
-      "step": 852
-    },
-    {
-      "epoch": 3.79,
-      "learning_rate": 0.0001,
-      "loss": 0.5957,
-      "step": 853
-    },
-    {
-      "epoch": 3.8,
-      "learning_rate": 0.0001,
-      "loss": 0.6254,
-      "step": 854
-    },
-    {
-      "epoch": 3.8,
-      "learning_rate": 0.0001,
-      "loss": 0.6521,
-      "step": 855
-    },
-    {
-      "epoch": 3.8,
-      "learning_rate": 0.0001,
-      "loss": 0.6361,
-      "step": 856
-    },
-    {
-      "epoch": 3.81,
-      "learning_rate": 0.0001,
-      "loss": 0.6474,
-      "step": 857
-    },
-    {
-      "epoch": 3.81,
-      "learning_rate": 0.0001,
-      "loss": 0.6121,
-      "step": 858
-    },
-    {
-      "epoch": 3.82,
-      "learning_rate": 0.0001,
-      "loss": 0.5983,
-      "step": 859
-    },
-    {
-      "epoch": 3.82,
-      "learning_rate": 0.0001,
-      "loss": 0.6431,
-      "step": 860
-    },
-    {
-      "epoch": 3.82,
-      "eval_loss": 0.729424774646759,
-      "eval_runtime": 19.1466,
-      "eval_samples_per_second": 4.231,
-      "eval_steps_per_second": 1.097,
-      "step": 860
-    },
-    {
-      "epoch": 3.83,
-      "learning_rate": 0.0001,
-      "loss": 0.5838,
-      "step": 861
-    },
-    {
-      "epoch": 3.83,
-      "learning_rate": 0.0001,
-      "loss": 0.7613,
-      "step": 862
-    },
-    {
-      "epoch": 3.84,
-      "learning_rate": 0.0001,
-      "loss": 0.6654,
-      "step": 863
-    },
-    {
-      "epoch": 3.84,
-      "learning_rate": 0.0001,
-      "loss": 0.5563,
-      "step": 864
-    },
-    {
-      "epoch": 3.84,
-      "learning_rate": 0.0001,
-      "loss": 0.6706,
-      "step": 865
-    },
-    {
-      "epoch": 3.85,
-      "learning_rate": 0.0001,
-      "loss": 0.6083,
-      "step": 866
-    },
-    {
-      "epoch": 3.85,
-      "learning_rate": 0.0001,
-      "loss": 0.5665,
-      "step": 867
-    },
-    {
-      "epoch": 3.86,
-      "learning_rate": 0.0001,
-      "loss": 0.6089,
-      "step": 868
-    },
-    {
-      "epoch": 3.86,
-      "learning_rate": 0.0001,
-      "loss": 0.5937,
-      "step": 869
-    },
-    {
-      "epoch": 3.87,
-      "learning_rate": 0.0001,
-      "loss": 0.5958,
-      "step": 870
-    },
-    {
-      "epoch": 3.87,
-      "learning_rate": 0.0001,
-      "loss": 0.5194,
-      "step": 871
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 0.0001,
-      "loss": 0.5701,
-      "step": 872
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 0.0001,
-      "loss": 0.6191,
-      "step": 873
-    },
-    {
-      "epoch": 3.88,
-      "learning_rate": 0.0001,
-      "loss": 0.6032,
-      "step": 874
-    },
-    {
-      "epoch": 3.89,
-      "learning_rate": 0.0001,
-      "loss": 0.5789,
-      "step": 875
-    },
-    {
-      "epoch": 3.89,
-      "learning_rate": 0.0001,
-      "loss": 0.6796,
-      "step": 876
-    },
-    {
-      "epoch": 3.9,
-      "learning_rate": 0.0001,
-      "loss": 0.7132,
-      "step": 877
-    },
-    {
-      "epoch": 3.9,
-      "learning_rate": 0.0001,
-      "loss": 0.7038,
-      "step": 878
-    },
-    {
-      "epoch": 3.91,
-      "learning_rate": 0.0001,
-      "loss": 0.737,
-      "step": 879
-    },
-    {
-      "epoch": 3.91,
-      "learning_rate": 0.0001,
-      "loss": 0.6938,
-      "step": 880
-    },
-    {
-      "epoch": 3.91,
-      "eval_loss": 0.7355621457099915,
-      "eval_runtime": 19.0965,
-      "eval_samples_per_second": 4.242,
-      "eval_steps_per_second": 1.1,
-      "step": 880
-    },
-    {
-      "epoch": 3.92,
-      "learning_rate": 0.0001,
-      "loss": 0.7009,
-      "step": 881
-    },
-    {
-      "epoch": 3.92,
-      "learning_rate": 0.0001,
-      "loss": 0.6425,
-      "step": 882
-    },
-    {
-      "epoch": 3.92,
-      "learning_rate": 0.0001,
-      "loss": 0.6306,
-      "step": 883
-    },
-    {
-      "epoch": 3.93,
-      "learning_rate": 0.0001,
-      "loss": 0.6771,
-      "step": 884
-    },
-    {
-      "epoch": 3.93,
-      "learning_rate": 0.0001,
-      "loss": 0.6381,
-      "step": 885
-    },
-    {
-      "epoch": 3.94,
-      "learning_rate": 0.0001,
-      "loss": 0.6741,
-      "step": 886
-    },
-    {
-      "epoch": 3.94,
-      "learning_rate": 0.0001,
-      "loss": 0.6783,
-      "step": 887
-    },
-    {
-      "epoch": 3.95,
-      "learning_rate": 0.0001,
-      "loss": 0.6619,
-      "step": 888
-    },
-    {
-      "epoch": 3.95,
-      "learning_rate": 0.0001,
-      "loss": 0.6493,
-      "step": 889
-    },
-    {
-      "epoch": 3.96,
-      "learning_rate": 0.0001,
-      "loss": 0.6248,
-      "step": 890
-    },
-    {
-      "epoch": 3.96,
-      "learning_rate": 0.0001,
-      "loss": 0.5975,
-      "step": 891
-    },
-    {
-      "epoch": 3.96,
-      "learning_rate": 0.0001,
-      "loss": 0.6597,
-      "step": 892
-    },
-    {
-      "epoch": 3.97,
-      "learning_rate": 0.0001,
-      "loss": 0.5691,
-      "step": 893
-    },
-    {
-      "epoch": 3.97,
-      "learning_rate": 0.0001,
-      "loss": 0.6303,
-      "step": 894
-    },
-    {
-      "epoch": 3.98,
-      "learning_rate": 0.0001,
-      "loss": 0.6042,
-      "step": 895
-    },
-    {
-      "epoch": 3.98,
-      "learning_rate": 0.0001,
-      "loss": 0.5876,
-      "step": 896
-    },
-    {
-      "epoch": 3.99,
-      "learning_rate": 0.0001,
-      "loss": 0.6245,
-      "step": 897
-    },
-    {
-      "epoch": 3.99,
-      "learning_rate": 0.0001,
-      "loss": 0.5628,
-      "step": 898
-    },
-    {
-      "epoch": 4.0,
-      "learning_rate": 0.0001,
-      "loss": 0.5753,
-      "step": 899
-    },
-    {
-      "epoch": 4.0,
-      "learning_rate": 0.0001,
-      "loss": 0.5886,
-      "step": 900
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 0.7348082661628723,
-      "eval_runtime": 18.8837,
-      "eval_samples_per_second": 4.289,
-      "eval_steps_per_second": 1.112,
-      "step": 900
     }
   ],
   "logging_steps": 1,
@@ -5774,7 +4328,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 20,
-  "total_flos": 2.1376566399074304e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 20,
+  "global_step": 675,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 0.0001,
       "loss": 0.716,
       "step": 675
     }
   ],
   "logging_steps": 1,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 20,
+  "total_flos": 1.6025567876087808e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null