Training in progress, step 3200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +451 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2d30406d7c467767499ef4fa93e0814e4b9c839e83cc877c2f8eaaf710781d1
 size 891644712

 version https://git-lfs.github.com/spec/v1
+oid sha256:acde9c308eddee03ae7ba07078f126ecbfbf189649125ba5e28eb98b2eb7a498
 size 891644712

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d95e37a4b2b1e8065e39772f0ad6f60340e21cd105dce5b06f199029f9a8d550
 size 1783444794

 version https://git-lfs.github.com/spec/v1
+oid sha256:69a94b5c388ad02488cfa16d32d05e88a60512f1756f067232047f67b1bbc1d7
 size 1783444794

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0d2f5ef411fc40d8d9b3f53029f0d2bde94e51e311c130b07e4428069fee892d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a9ec26c805fc0805503b452ed1d7a3e08af9f21c7d994d43e4705d7fe6b69c0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3543c156e7d71b14c19e0a0a6a897c5b126e8bc6938f4ff38dab3dadeb331bb4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ae1375ade70d0aa6318948d7a88aecd14c5ea3b408d7a30a7af5ef14aa83d44
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7038269550748752,
   "eval_steps": 500,
-  "global_step": 3072,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10767,6 +10767,454 @@
       "learning_rate": 1.128797253211723e-05,
       "loss": 0.3036,
       "step": 3072
     }
   ],
   "logging_steps": 2,
@@ -10786,7 +11234,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7482417840783360.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7748197448696617,
   "eval_steps": 500,
+  "global_step": 3200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.128797253211723e-05,
       "loss": 0.3036,
       "step": 3072
+    },
+    {
+      "epoch": 1.7049362174154188,
+      "grad_norm": 0.24164661765098572,
+      "learning_rate": 1.120518952483819e-05,
+      "loss": 0.3209,
+      "step": 3074
+    },
+    {
+      "epoch": 1.7060454797559623,
+      "grad_norm": 0.34098076820373535,
+      "learning_rate": 1.1122693170195164e-05,
+      "loss": 0.446,
+      "step": 3076
+    },
+    {
+      "epoch": 1.7071547420965059,
+      "grad_norm": 0.3181568384170532,
+      "learning_rate": 1.1040483734507789e-05,
+      "loss": 0.3758,
+      "step": 3078
+    },
+    {
+      "epoch": 1.7082640044370494,
+      "grad_norm": 0.2597646415233612,
+      "learning_rate": 1.095856148316936e-05,
+      "loss": 0.35,
+      "step": 3080
+    },
+    {
+      "epoch": 1.709373266777593,
+      "grad_norm": 0.27917012572288513,
+      "learning_rate": 1.087692668064616e-05,
+      "loss": 0.3619,
+      "step": 3082
+    },
+    {
+      "epoch": 1.7104825291181365,
+      "grad_norm": 0.2992468774318695,
+      "learning_rate": 1.0795579590476445e-05,
+      "loss": 0.37,
+      "step": 3084
+    },
+    {
+      "epoch": 1.71159179145868,
+      "grad_norm": 0.3110543191432953,
+      "learning_rate": 1.0714520475269652e-05,
+      "loss": 0.3318,
+      "step": 3086
+    },
+    {
+      "epoch": 1.7127010537992235,
+      "grad_norm": 0.393775075674057,
+      "learning_rate": 1.0633749596705645e-05,
+      "loss": 0.4044,
+      "step": 3088
+    },
+    {
+      "epoch": 1.713810316139767,
+      "grad_norm": 0.32126861810684204,
+      "learning_rate": 1.055326721553368e-05,
+      "loss": 0.4077,
+      "step": 3090
+    },
+    {
+      "epoch": 1.7149195784803106,
+      "grad_norm": 0.316629558801651,
+      "learning_rate": 1.0473073591571758e-05,
+      "loss": 0.3887,
+      "step": 3092
+    },
+    {
+      "epoch": 1.7160288408208542,
+      "grad_norm": 0.24358634650707245,
+      "learning_rate": 1.0393168983705626e-05,
+      "loss": 0.3439,
+      "step": 3094
+    },
+    {
+      "epoch": 1.7171381031613977,
+      "grad_norm": 0.3309425413608551,
+      "learning_rate": 1.0313553649888074e-05,
+      "loss": 0.3894,
+      "step": 3096
+    },
+    {
+      "epoch": 1.7182473655019412,
+      "grad_norm": 0.3401065468788147,
+      "learning_rate": 1.0234227847138011e-05,
+      "loss": 0.376,
+      "step": 3098
+    },
+    {
+      "epoch": 1.7193566278424848,
+      "grad_norm": 0.33251863718032837,
+      "learning_rate": 1.0155191831539645e-05,
+      "loss": 0.4203,
+      "step": 3100
+    },
+    {
+      "epoch": 1.7204658901830283,
+      "grad_norm": 0.3005315363407135,
+      "learning_rate": 1.0076445858241679e-05,
+      "loss": 0.2993,
+      "step": 3102
+    },
+    {
+      "epoch": 1.7215751525235718,
+      "grad_norm": 0.2971371114253998,
+      "learning_rate": 9.997990181456528e-06,
+      "loss": 0.3881,
+      "step": 3104
+    },
+    {
+      "epoch": 1.7226844148641154,
+      "grad_norm": 0.2904921770095825,
+      "learning_rate": 9.919825054459442e-06,
+      "loss": 0.3812,
+      "step": 3106
+    },
+    {
+      "epoch": 1.723793677204659,
+      "grad_norm": 0.3357609212398529,
+      "learning_rate": 9.841950729587668e-06,
+      "loss": 0.4121,
+      "step": 3108
+    },
+    {
+      "epoch": 1.7249029395452025,
+      "grad_norm": 0.2711123526096344,
+      "learning_rate": 9.764367458239677e-06,
+      "loss": 0.3789,
+      "step": 3110
+    },
+    {
+      "epoch": 1.726012201885746,
+      "grad_norm": 0.24408982694149017,
+      "learning_rate": 9.687075490874376e-06,
+      "loss": 0.3457,
+      "step": 3112
+    },
+    {
+      "epoch": 1.7271214642262895,
+      "grad_norm": 0.25458860397338867,
+      "learning_rate": 9.61007507701024e-06,
+      "loss": 0.3098,
+      "step": 3114
+    },
+    {
+      "epoch": 1.728230726566833,
+      "grad_norm": 0.2704317569732666,
+      "learning_rate": 9.533366465224514e-06,
+      "loss": 0.3471,
+      "step": 3116
+    },
+    {
+      "epoch": 1.7293399889073766,
+      "grad_norm": 0.2258918136358261,
+      "learning_rate": 9.456949903152478e-06,
+      "loss": 0.4087,
+      "step": 3118
+    },
+    {
+      "epoch": 1.7304492512479202,
+      "grad_norm": 0.20709431171417236,
+      "learning_rate": 9.38082563748659e-06,
+      "loss": 0.3383,
+      "step": 3120
+    },
+    {
+      "epoch": 1.7315585135884637,
+      "grad_norm": 0.24197116494178772,
+      "learning_rate": 9.30499391397568e-06,
+      "loss": 0.3323,
+      "step": 3122
+    },
+    {
+      "epoch": 1.7326677759290072,
+      "grad_norm": 0.30395829677581787,
+      "learning_rate": 9.229454977424157e-06,
+      "loss": 0.378,
+      "step": 3124
+    },
+    {
+      "epoch": 1.7337770382695508,
+      "grad_norm": 0.2813956141471863,
+      "learning_rate": 9.154209071691289e-06,
+      "loss": 0.3326,
+      "step": 3126
+    },
+    {
+      "epoch": 1.7348863006100943,
+      "grad_norm": 0.3281961679458618,
+      "learning_rate": 9.079256439690354e-06,
+      "loss": 0.3518,
+      "step": 3128
+    },
+    {
+      "epoch": 1.7359955629506378,
+      "grad_norm": 0.3628225326538086,
+      "learning_rate": 9.004597323387798e-06,
+      "loss": 0.4188,
+      "step": 3130
+    },
+    {
+      "epoch": 1.7371048252911814,
+      "grad_norm": 0.3164060711860657,
+      "learning_rate": 8.930231963802637e-06,
+      "loss": 0.3381,
+      "step": 3132
+    },
+    {
+      "epoch": 1.738214087631725,
+      "grad_norm": 0.27229782938957214,
+      "learning_rate": 8.856160601005459e-06,
+      "loss": 0.3767,
+      "step": 3134
+    },
+    {
+      "epoch": 1.7393233499722685,
+      "grad_norm": 0.34024956822395325,
+      "learning_rate": 8.782383474117838e-06,
+      "loss": 0.4573,
+      "step": 3136
+    },
+    {
+      "epoch": 1.740432612312812,
+      "grad_norm": 0.32661277055740356,
+      "learning_rate": 8.708900821311405e-06,
+      "loss": 0.5145,
+      "step": 3138
+    },
+    {
+      "epoch": 1.7415418746533555,
+      "grad_norm": 0.24198585748672485,
+      "learning_rate": 8.635712879807222e-06,
+      "loss": 0.2969,
+      "step": 3140
+    },
+    {
+      "epoch": 1.742651136993899,
+      "grad_norm": 0.37718066573143005,
+      "learning_rate": 8.562819885874884e-06,
+      "loss": 0.5287,
+      "step": 3142
+    },
+    {
+      "epoch": 1.7437603993344426,
+      "grad_norm": 0.3092913329601288,
+      "learning_rate": 8.490222074831845e-06,
+      "loss": 0.3534,
+      "step": 3144
+    },
+    {
+      "epoch": 1.7448696616749861,
+      "grad_norm": 0.2609056830406189,
+      "learning_rate": 8.417919681042652e-06,
+      "loss": 0.3774,
+      "step": 3146
+    },
+    {
+      "epoch": 1.7459789240155297,
+      "grad_norm": 0.3176262080669403,
+      "learning_rate": 8.345912937918121e-06,
+      "loss": 0.3448,
+      "step": 3148
+    },
+    {
+      "epoch": 1.7470881863560732,
+      "grad_norm": 0.3105904757976532,
+      "learning_rate": 8.274202077914705e-06,
+      "loss": 0.3949,
+      "step": 3150
+    },
+    {
+      "epoch": 1.7481974486966168,
+      "grad_norm": 0.3904447555541992,
+      "learning_rate": 8.20278733253359e-06,
+      "loss": 0.45,
+      "step": 3152
+    },
+    {
+      "epoch": 1.7493067110371603,
+      "grad_norm": 0.27570340037345886,
+      "learning_rate": 8.13166893232008e-06,
+      "loss": 0.4282,
+      "step": 3154
+    },
+    {
+      "epoch": 1.7504159733777038,
+      "grad_norm": 0.2809303104877472,
+      "learning_rate": 8.060847106862779e-06,
+      "loss": 0.3358,
+      "step": 3156
+    },
+    {
+      "epoch": 1.7515252357182474,
+      "grad_norm": 0.43461307883262634,
+      "learning_rate": 7.990322084792867e-06,
+      "loss": 0.3352,
+      "step": 3158
+    },
+    {
+      "epoch": 1.752634498058791,
+      "grad_norm": 0.3733227550983429,
+      "learning_rate": 7.92009409378337e-06,
+      "loss": 0.4386,
+      "step": 3160
+    },
+    {
+      "epoch": 1.7537437603993344,
+      "grad_norm": 0.22569668292999268,
+      "learning_rate": 7.850163360548424e-06,
+      "loss": 0.2785,
+      "step": 3162
+    },
+    {
+      "epoch": 1.754853022739878,
+      "grad_norm": 0.286538690328598,
+      "learning_rate": 7.780530110842565e-06,
+      "loss": 0.312,
+      "step": 3164
+    },
+    {
+      "epoch": 1.7559622850804215,
+      "grad_norm": 0.2738610804080963,
+      "learning_rate": 7.711194569459934e-06,
+      "loss": 0.3244,
+      "step": 3166
+    },
+    {
+      "epoch": 1.757071547420965,
+      "grad_norm": 0.30075690150260925,
+      "learning_rate": 7.642156960233592e-06,
+      "loss": 0.3691,
+      "step": 3168
+    },
+    {
+      "epoch": 1.7581808097615086,
+      "grad_norm": 0.2853529453277588,
+      "learning_rate": 7.573417506034852e-06,
+      "loss": 0.3259,
+      "step": 3170
+    },
+    {
+      "epoch": 1.7592900721020521,
+      "grad_norm": 0.23462392389774323,
+      "learning_rate": 7.504976428772437e-06,
+      "loss": 0.3671,
+      "step": 3172
+    },
+    {
+      "epoch": 1.7603993344425957,
+      "grad_norm": 0.365106999874115,
+      "learning_rate": 7.436833949391853e-06,
+      "loss": 0.3698,
+      "step": 3174
+    },
+    {
+      "epoch": 1.7615085967831392,
+      "grad_norm": 0.2944175899028778,
+      "learning_rate": 7.368990287874711e-06,
+      "loss": 0.3515,
+      "step": 3176
+    },
+    {
+      "epoch": 1.7626178591236827,
+      "grad_norm": 0.2920864224433899,
+      "learning_rate": 7.301445663237861e-06,
+      "loss": 0.3424,
+      "step": 3178
+    },
+    {
+      "epoch": 1.7637271214642263,
+      "grad_norm": 0.26654571294784546,
+      "learning_rate": 7.234200293532889e-06,
+      "loss": 0.3553,
+      "step": 3180
+    },
+    {
+      "epoch": 1.7648363838047698,
+      "grad_norm": 0.2544094920158386,
+      "learning_rate": 7.167254395845202e-06,
+      "loss": 0.3715,
+      "step": 3182
+    },
+    {
+      "epoch": 1.7659456461453134,
+      "grad_norm": 0.2914319932460785,
+      "learning_rate": 7.1006081862935444e-06,
+      "loss": 0.4023,
+      "step": 3184
+    },
+    {
+      "epoch": 1.767054908485857,
+      "grad_norm": 0.3055804371833801,
+      "learning_rate": 7.034261880029114e-06,
+      "loss": 0.3967,
+      "step": 3186
+    },
+    {
+      "epoch": 1.7681641708264004,
+      "grad_norm": 0.2863101661205292,
+      "learning_rate": 6.968215691234936e-06,
+      "loss": 0.3853,
+      "step": 3188
+    },
+    {
+      "epoch": 1.769273433166944,
+      "grad_norm": 0.28304606676101685,
+      "learning_rate": 6.902469833125236e-06,
+      "loss": 0.3937,
+      "step": 3190
+    },
+    {
+      "epoch": 1.7703826955074875,
+      "grad_norm": 0.2828314006328583,
+      "learning_rate": 6.837024517944657e-06,
+      "loss": 0.3907,
+      "step": 3192
+    },
+    {
+      "epoch": 1.771491957848031,
+      "grad_norm": 0.2963877022266388,
+      "learning_rate": 6.77187995696763e-06,
+      "loss": 0.3885,
+      "step": 3194
+    },
+    {
+      "epoch": 1.7726012201885746,
+      "grad_norm": 0.24497413635253906,
+      "learning_rate": 6.707036360497632e-06,
+      "loss": 0.4195,
+      "step": 3196
+    },
+    {
+      "epoch": 1.7737104825291181,
+      "grad_norm": 0.25655171275138855,
+      "learning_rate": 6.642493937866623e-06,
+      "loss": 0.3315,
+      "step": 3198
+    },
+    {
+      "epoch": 1.7748197448696617,
+      "grad_norm": 0.3175029456615448,
+      "learning_rate": 6.578252897434223e-06,
+      "loss": 0.464,
+      "step": 3200
     }
   ],
   "logging_steps": 2,
       "attributes": {}
     }
   },
+  "total_flos": 7794204280750080.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null