beingbatman commited on
Commit
2edb7e4
1 Parent(s): a235b68

End of training

Browse files
Files changed (3) hide show
  1. all_results.json +8 -0
  2. test_results.json +8 -0
  3. trainer_state.json +2181 -0
all_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 48.02,
3
+ "eval_accuracy": 0.5,
4
+ "eval_loss": 1.6418968439102173,
5
+ "eval_runtime": 4.5735,
6
+ "eval_samples_per_second": 5.248,
7
+ "eval_steps_per_second": 1.312
8
+ }
test_results.json ADDED
@@ -0,0 +1,8 @@
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "epoch": 48.02,
3
+ "eval_accuracy": 0.5,
4
+ "eval_loss": 1.6418968439102173,
5
+ "eval_runtime": 4.5735,
6
+ "eval_samples_per_second": 5.248,
7
+ "eval_steps_per_second": 1.312
8
+ }
trainer_state.json ADDED
@@ -0,0 +1,2181 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.7368421052631579,
3
+ "best_model_checkpoint": "MAE-CT-CPC-Dicotomized-n0-m1-d1-v9/checkpoint-735",
4
+ "epoch": 48.02,
5
+ "eval_steps": 500,
6
+ "global_step": 2400,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.004166666666666667,
13
+ "grad_norm": 2.6540045738220215,
14
+ "learning_rate": 4.1666666666666667e-07,
15
+ "loss": 0.6936,
16
+ "step": 10
17
+ },
18
+ {
19
+ "epoch": 0.008333333333333333,
20
+ "grad_norm": 3.005134344100952,
21
+ "learning_rate": 8.333333333333333e-07,
22
+ "loss": 0.6954,
23
+ "step": 20
24
+ },
25
+ {
26
+ "epoch": 0.0125,
27
+ "grad_norm": 2.9051997661590576,
28
+ "learning_rate": 1.25e-06,
29
+ "loss": 0.6957,
30
+ "step": 30
31
+ },
32
+ {
33
+ "epoch": 0.016666666666666666,
34
+ "grad_norm": 5.865764617919922,
35
+ "learning_rate": 1.6666666666666667e-06,
36
+ "loss": 0.6819,
37
+ "step": 40
38
+ },
39
+ {
40
+ "epoch": 0.020416666666666666,
41
+ "eval_accuracy": 0.5789473684210527,
42
+ "eval_loss": 0.6640610694885254,
43
+ "eval_runtime": 4.1603,
44
+ "eval_samples_per_second": 4.567,
45
+ "eval_steps_per_second": 1.202,
46
+ "step": 49
47
+ },
48
+ {
49
+ "epoch": 1.0004166666666667,
50
+ "grad_norm": 2.7976856231689453,
51
+ "learning_rate": 2.0833333333333334e-06,
52
+ "loss": 0.6419,
53
+ "step": 50
54
+ },
55
+ {
56
+ "epoch": 1.0045833333333334,
57
+ "grad_norm": 4.449363708496094,
58
+ "learning_rate": 2.5e-06,
59
+ "loss": 0.6596,
60
+ "step": 60
61
+ },
62
+ {
63
+ "epoch": 1.00875,
64
+ "grad_norm": 3.9453043937683105,
65
+ "learning_rate": 2.916666666666667e-06,
66
+ "loss": 0.7489,
67
+ "step": 70
68
+ },
69
+ {
70
+ "epoch": 1.0129166666666667,
71
+ "grad_norm": 4.261590480804443,
72
+ "learning_rate": 3.3333333333333333e-06,
73
+ "loss": 0.6614,
74
+ "step": 80
75
+ },
76
+ {
77
+ "epoch": 1.0170833333333333,
78
+ "grad_norm": 8.211638450622559,
79
+ "learning_rate": 3.7500000000000005e-06,
80
+ "loss": 0.6201,
81
+ "step": 90
82
+ },
83
+ {
84
+ "epoch": 1.0204166666666667,
85
+ "eval_accuracy": 0.5789473684210527,
86
+ "eval_loss": 0.6367576718330383,
87
+ "eval_runtime": 3.6676,
88
+ "eval_samples_per_second": 5.181,
89
+ "eval_steps_per_second": 1.363,
90
+ "step": 98
91
+ },
92
+ {
93
+ "epoch": 2.0008333333333335,
94
+ "grad_norm": 5.028270244598389,
95
+ "learning_rate": 4.166666666666667e-06,
96
+ "loss": 0.6964,
97
+ "step": 100
98
+ },
99
+ {
100
+ "epoch": 2.005,
101
+ "grad_norm": 4.883535861968994,
102
+ "learning_rate": 4.583333333333333e-06,
103
+ "loss": 0.6823,
104
+ "step": 110
105
+ },
106
+ {
107
+ "epoch": 2.0091666666666668,
108
+ "grad_norm": 13.357542037963867,
109
+ "learning_rate": 5e-06,
110
+ "loss": 0.6742,
111
+ "step": 120
112
+ },
113
+ {
114
+ "epoch": 2.013333333333333,
115
+ "grad_norm": 6.5849480628967285,
116
+ "learning_rate": 5.416666666666667e-06,
117
+ "loss": 0.5546,
118
+ "step": 130
119
+ },
120
+ {
121
+ "epoch": 2.0175,
122
+ "grad_norm": 5.240979194641113,
123
+ "learning_rate": 5.833333333333334e-06,
124
+ "loss": 0.6787,
125
+ "step": 140
126
+ },
127
+ {
128
+ "epoch": 2.0204166666666667,
129
+ "eval_accuracy": 0.5789473684210527,
130
+ "eval_loss": 0.6108768582344055,
131
+ "eval_runtime": 3.6774,
132
+ "eval_samples_per_second": 5.167,
133
+ "eval_steps_per_second": 1.36,
134
+ "step": 147
135
+ },
136
+ {
137
+ "epoch": 3.00125,
138
+ "grad_norm": 7.692701816558838,
139
+ "learning_rate": 6.25e-06,
140
+ "loss": 0.7031,
141
+ "step": 150
142
+ },
143
+ {
144
+ "epoch": 3.0054166666666666,
145
+ "grad_norm": 2.450507164001465,
146
+ "learning_rate": 6.666666666666667e-06,
147
+ "loss": 0.6611,
148
+ "step": 160
149
+ },
150
+ {
151
+ "epoch": 3.0095833333333335,
152
+ "grad_norm": 7.620597839355469,
153
+ "learning_rate": 7.083333333333335e-06,
154
+ "loss": 0.6429,
155
+ "step": 170
156
+ },
157
+ {
158
+ "epoch": 3.01375,
159
+ "grad_norm": 8.6759033203125,
160
+ "learning_rate": 7.500000000000001e-06,
161
+ "loss": 0.6269,
162
+ "step": 180
163
+ },
164
+ {
165
+ "epoch": 3.017916666666667,
166
+ "grad_norm": 8.059222221374512,
167
+ "learning_rate": 7.916666666666667e-06,
168
+ "loss": 0.6484,
169
+ "step": 190
170
+ },
171
+ {
172
+ "epoch": 3.0204166666666667,
173
+ "eval_accuracy": 0.631578947368421,
174
+ "eval_loss": 0.6304681897163391,
175
+ "eval_runtime": 3.616,
176
+ "eval_samples_per_second": 5.254,
177
+ "eval_steps_per_second": 1.383,
178
+ "step": 196
179
+ },
180
+ {
181
+ "epoch": 4.001666666666667,
182
+ "grad_norm": 7.98549222946167,
183
+ "learning_rate": 8.333333333333334e-06,
184
+ "loss": 0.6938,
185
+ "step": 200
186
+ },
187
+ {
188
+ "epoch": 4.005833333333333,
189
+ "grad_norm": 8.134982109069824,
190
+ "learning_rate": 8.750000000000001e-06,
191
+ "loss": 0.5986,
192
+ "step": 210
193
+ },
194
+ {
195
+ "epoch": 4.01,
196
+ "grad_norm": 15.768097877502441,
197
+ "learning_rate": 9.166666666666666e-06,
198
+ "loss": 0.3969,
199
+ "step": 220
200
+ },
201
+ {
202
+ "epoch": 4.014166666666667,
203
+ "grad_norm": 11.637251853942871,
204
+ "learning_rate": 9.583333333333335e-06,
205
+ "loss": 0.6835,
206
+ "step": 230
207
+ },
208
+ {
209
+ "epoch": 4.0183333333333335,
210
+ "grad_norm": 63.66741180419922,
211
+ "learning_rate": 1e-05,
212
+ "loss": 0.6357,
213
+ "step": 240
214
+ },
215
+ {
216
+ "epoch": 4.020416666666667,
217
+ "eval_accuracy": 0.5263157894736842,
218
+ "eval_loss": 0.6793826818466187,
219
+ "eval_runtime": 3.6154,
220
+ "eval_samples_per_second": 5.255,
221
+ "eval_steps_per_second": 1.383,
222
+ "step": 245
223
+ },
224
+ {
225
+ "epoch": 5.002083333333333,
226
+ "grad_norm": 10.716292381286621,
227
+ "learning_rate": 9.953703703703704e-06,
228
+ "loss": 0.6267,
229
+ "step": 250
230
+ },
231
+ {
232
+ "epoch": 5.00625,
233
+ "grad_norm": 10.738350868225098,
234
+ "learning_rate": 9.907407407407408e-06,
235
+ "loss": 0.6908,
236
+ "step": 260
237
+ },
238
+ {
239
+ "epoch": 5.010416666666667,
240
+ "grad_norm": 7.5224690437316895,
241
+ "learning_rate": 9.861111111111112e-06,
242
+ "loss": 0.6093,
243
+ "step": 270
244
+ },
245
+ {
246
+ "epoch": 5.014583333333333,
247
+ "grad_norm": 15.3920259475708,
248
+ "learning_rate": 9.814814814814815e-06,
249
+ "loss": 0.5489,
250
+ "step": 280
251
+ },
252
+ {
253
+ "epoch": 5.01875,
254
+ "grad_norm": 17.959043502807617,
255
+ "learning_rate": 9.768518518518519e-06,
256
+ "loss": 0.5692,
257
+ "step": 290
258
+ },
259
+ {
260
+ "epoch": 5.020416666666667,
261
+ "eval_accuracy": 0.5263157894736842,
262
+ "eval_loss": 0.6937870979309082,
263
+ "eval_runtime": 3.6363,
264
+ "eval_samples_per_second": 5.225,
265
+ "eval_steps_per_second": 1.375,
266
+ "step": 294
267
+ },
268
+ {
269
+ "epoch": 6.0025,
270
+ "grad_norm": 22.7791690826416,
271
+ "learning_rate": 9.722222222222223e-06,
272
+ "loss": 0.6108,
273
+ "step": 300
274
+ },
275
+ {
276
+ "epoch": 6.006666666666667,
277
+ "grad_norm": 12.141826629638672,
278
+ "learning_rate": 9.675925925925926e-06,
279
+ "loss": 0.7977,
280
+ "step": 310
281
+ },
282
+ {
283
+ "epoch": 6.010833333333333,
284
+ "grad_norm": 14.286447525024414,
285
+ "learning_rate": 9.62962962962963e-06,
286
+ "loss": 0.5559,
287
+ "step": 320
288
+ },
289
+ {
290
+ "epoch": 6.015,
291
+ "grad_norm": 12.041421890258789,
292
+ "learning_rate": 9.583333333333335e-06,
293
+ "loss": 0.5921,
294
+ "step": 330
295
+ },
296
+ {
297
+ "epoch": 6.019166666666667,
298
+ "grad_norm": 14.011693000793457,
299
+ "learning_rate": 9.537037037037037e-06,
300
+ "loss": 0.658,
301
+ "step": 340
302
+ },
303
+ {
304
+ "epoch": 6.020416666666667,
305
+ "eval_accuracy": 0.5789473684210527,
306
+ "eval_loss": 0.6696313619613647,
307
+ "eval_runtime": 3.7127,
308
+ "eval_samples_per_second": 5.118,
309
+ "eval_steps_per_second": 1.347,
310
+ "step": 343
311
+ },
312
+ {
313
+ "epoch": 7.002916666666667,
314
+ "grad_norm": 5.979766845703125,
315
+ "learning_rate": 9.490740740740741e-06,
316
+ "loss": 0.5175,
317
+ "step": 350
318
+ },
319
+ {
320
+ "epoch": 7.007083333333333,
321
+ "grad_norm": 10.06272029876709,
322
+ "learning_rate": 9.444444444444445e-06,
323
+ "loss": 0.5399,
324
+ "step": 360
325
+ },
326
+ {
327
+ "epoch": 7.01125,
328
+ "grad_norm": 6.3305983543396,
329
+ "learning_rate": 9.398148148148148e-06,
330
+ "loss": 0.4964,
331
+ "step": 370
332
+ },
333
+ {
334
+ "epoch": 7.015416666666667,
335
+ "grad_norm": 10.718533515930176,
336
+ "learning_rate": 9.351851851851854e-06,
337
+ "loss": 0.4526,
338
+ "step": 380
339
+ },
340
+ {
341
+ "epoch": 7.019583333333333,
342
+ "grad_norm": 10.034852981567383,
343
+ "learning_rate": 9.305555555555557e-06,
344
+ "loss": 0.5112,
345
+ "step": 390
346
+ },
347
+ {
348
+ "epoch": 7.020416666666667,
349
+ "eval_accuracy": 0.631578947368421,
350
+ "eval_loss": 0.566916823387146,
351
+ "eval_runtime": 3.6949,
352
+ "eval_samples_per_second": 5.142,
353
+ "eval_steps_per_second": 1.353,
354
+ "step": 392
355
+ },
356
+ {
357
+ "epoch": 8.003333333333334,
358
+ "grad_norm": 12.490917205810547,
359
+ "learning_rate": 9.25925925925926e-06,
360
+ "loss": 0.7497,
361
+ "step": 400
362
+ },
363
+ {
364
+ "epoch": 8.0075,
365
+ "grad_norm": 9.842666625976562,
366
+ "learning_rate": 9.212962962962963e-06,
367
+ "loss": 0.4709,
368
+ "step": 410
369
+ },
370
+ {
371
+ "epoch": 8.011666666666667,
372
+ "grad_norm": 18.18292236328125,
373
+ "learning_rate": 9.166666666666666e-06,
374
+ "loss": 0.4979,
375
+ "step": 420
376
+ },
377
+ {
378
+ "epoch": 8.015833333333333,
379
+ "grad_norm": 18.306493759155273,
380
+ "learning_rate": 9.120370370370372e-06,
381
+ "loss": 0.4218,
382
+ "step": 430
383
+ },
384
+ {
385
+ "epoch": 8.02,
386
+ "grad_norm": 1.3783447742462158,
387
+ "learning_rate": 9.074074074074075e-06,
388
+ "loss": 0.3719,
389
+ "step": 440
390
+ },
391
+ {
392
+ "epoch": 8.020416666666666,
393
+ "eval_accuracy": 0.631578947368421,
394
+ "eval_loss": 0.8023158311843872,
395
+ "eval_runtime": 3.6756,
396
+ "eval_samples_per_second": 5.169,
397
+ "eval_steps_per_second": 1.36,
398
+ "step": 441
399
+ },
400
+ {
401
+ "epoch": 9.00375,
402
+ "grad_norm": 43.830078125,
403
+ "learning_rate": 9.027777777777779e-06,
404
+ "loss": 0.4791,
405
+ "step": 450
406
+ },
407
+ {
408
+ "epoch": 9.007916666666667,
409
+ "grad_norm": 13.223751068115234,
410
+ "learning_rate": 8.981481481481483e-06,
411
+ "loss": 0.623,
412
+ "step": 460
413
+ },
414
+ {
415
+ "epoch": 9.012083333333333,
416
+ "grad_norm": 48.20356369018555,
417
+ "learning_rate": 8.935185185185186e-06,
418
+ "loss": 0.3433,
419
+ "step": 470
420
+ },
421
+ {
422
+ "epoch": 9.01625,
423
+ "grad_norm": 12.939654350280762,
424
+ "learning_rate": 8.888888888888888e-06,
425
+ "loss": 0.4031,
426
+ "step": 480
427
+ },
428
+ {
429
+ "epoch": 9.020416666666666,
430
+ "grad_norm": 12.470285415649414,
431
+ "learning_rate": 8.842592592592594e-06,
432
+ "loss": 0.4573,
433
+ "step": 490
434
+ },
435
+ {
436
+ "epoch": 9.020416666666666,
437
+ "eval_accuracy": 0.631578947368421,
438
+ "eval_loss": 0.5990714430809021,
439
+ "eval_runtime": 3.6148,
440
+ "eval_samples_per_second": 5.256,
441
+ "eval_steps_per_second": 1.383,
442
+ "step": 490
443
+ },
444
+ {
445
+ "epoch": 10.004166666666666,
446
+ "grad_norm": 5.166864395141602,
447
+ "learning_rate": 8.796296296296297e-06,
448
+ "loss": 0.3944,
449
+ "step": 500
450
+ },
451
+ {
452
+ "epoch": 10.008333333333333,
453
+ "grad_norm": 36.93327331542969,
454
+ "learning_rate": 8.750000000000001e-06,
455
+ "loss": 0.2934,
456
+ "step": 510
457
+ },
458
+ {
459
+ "epoch": 10.0125,
460
+ "grad_norm": 2.9084632396698,
461
+ "learning_rate": 8.703703703703705e-06,
462
+ "loss": 0.3113,
463
+ "step": 520
464
+ },
465
+ {
466
+ "epoch": 10.016666666666667,
467
+ "grad_norm": 25.439733505249023,
468
+ "learning_rate": 8.657407407407408e-06,
469
+ "loss": 0.2915,
470
+ "step": 530
471
+ },
472
+ {
473
+ "epoch": 10.020416666666666,
474
+ "eval_accuracy": 0.6842105263157895,
475
+ "eval_loss": 0.7898865938186646,
476
+ "eval_runtime": 3.6535,
477
+ "eval_samples_per_second": 5.2,
478
+ "eval_steps_per_second": 1.369,
479
+ "step": 539
480
+ },
481
+ {
482
+ "epoch": 11.000416666666666,
483
+ "grad_norm": 46.3503532409668,
484
+ "learning_rate": 8.611111111111112e-06,
485
+ "loss": 0.5269,
486
+ "step": 540
487
+ },
488
+ {
489
+ "epoch": 11.004583333333333,
490
+ "grad_norm": 0.9184814095497131,
491
+ "learning_rate": 8.564814814814816e-06,
492
+ "loss": 0.2812,
493
+ "step": 550
494
+ },
495
+ {
496
+ "epoch": 11.00875,
497
+ "grad_norm": 0.12803786993026733,
498
+ "learning_rate": 8.518518518518519e-06,
499
+ "loss": 0.6738,
500
+ "step": 560
501
+ },
502
+ {
503
+ "epoch": 11.012916666666667,
504
+ "grad_norm": 6.100522518157959,
505
+ "learning_rate": 8.472222222222223e-06,
506
+ "loss": 0.4429,
507
+ "step": 570
508
+ },
509
+ {
510
+ "epoch": 11.017083333333334,
511
+ "grad_norm": 57.438533782958984,
512
+ "learning_rate": 8.425925925925926e-06,
513
+ "loss": 0.3723,
514
+ "step": 580
515
+ },
516
+ {
517
+ "epoch": 11.020416666666666,
518
+ "eval_accuracy": 0.5263157894736842,
519
+ "eval_loss": 0.9848392605781555,
520
+ "eval_runtime": 3.676,
521
+ "eval_samples_per_second": 5.169,
522
+ "eval_steps_per_second": 1.36,
523
+ "step": 588
524
+ },
525
+ {
526
+ "epoch": 12.000833333333333,
527
+ "grad_norm": 39.162044525146484,
528
+ "learning_rate": 8.37962962962963e-06,
529
+ "loss": 0.3971,
530
+ "step": 590
531
+ },
532
+ {
533
+ "epoch": 12.005,
534
+ "grad_norm": 2.6625895500183105,
535
+ "learning_rate": 8.333333333333334e-06,
536
+ "loss": 0.423,
537
+ "step": 600
538
+ },
539
+ {
540
+ "epoch": 12.009166666666667,
541
+ "grad_norm": 64.04193878173828,
542
+ "learning_rate": 8.287037037037037e-06,
543
+ "loss": 0.5011,
544
+ "step": 610
545
+ },
546
+ {
547
+ "epoch": 12.013333333333334,
548
+ "grad_norm": 3.9968278408050537,
549
+ "learning_rate": 8.240740740740741e-06,
550
+ "loss": 0.3497,
551
+ "step": 620
552
+ },
553
+ {
554
+ "epoch": 12.0175,
555
+ "grad_norm": 0.1798192709684372,
556
+ "learning_rate": 8.194444444444445e-06,
557
+ "loss": 0.1372,
558
+ "step": 630
559
+ },
560
+ {
561
+ "epoch": 12.020416666666666,
562
+ "eval_accuracy": 0.631578947368421,
563
+ "eval_loss": 0.9509623646736145,
564
+ "eval_runtime": 3.68,
565
+ "eval_samples_per_second": 5.163,
566
+ "eval_steps_per_second": 1.359,
567
+ "step": 637
568
+ },
569
+ {
570
+ "epoch": 13.00125,
571
+ "grad_norm": 0.18710507452487946,
572
+ "learning_rate": 8.148148148148148e-06,
573
+ "loss": 0.3299,
574
+ "step": 640
575
+ },
576
+ {
577
+ "epoch": 13.005416666666667,
578
+ "grad_norm": 0.11506196111440659,
579
+ "learning_rate": 8.101851851851854e-06,
580
+ "loss": 0.3919,
581
+ "step": 650
582
+ },
583
+ {
584
+ "epoch": 13.009583333333333,
585
+ "grad_norm": 27.668811798095703,
586
+ "learning_rate": 8.055555555555557e-06,
587
+ "loss": 0.1775,
588
+ "step": 660
589
+ },
590
+ {
591
+ "epoch": 13.01375,
592
+ "grad_norm": 75.68840026855469,
593
+ "learning_rate": 8.00925925925926e-06,
594
+ "loss": 0.2991,
595
+ "step": 670
596
+ },
597
+ {
598
+ "epoch": 13.017916666666666,
599
+ "grad_norm": 0.38133883476257324,
600
+ "learning_rate": 7.962962962962963e-06,
601
+ "loss": 0.0066,
602
+ "step": 680
603
+ },
604
+ {
605
+ "epoch": 13.020416666666666,
606
+ "eval_accuracy": 0.5789473684210527,
607
+ "eval_loss": 1.1871516704559326,
608
+ "eval_runtime": 3.6868,
609
+ "eval_samples_per_second": 5.154,
610
+ "eval_steps_per_second": 1.356,
611
+ "step": 686
612
+ },
613
+ {
614
+ "epoch": 14.001666666666667,
615
+ "grad_norm": 3.5586605072021484,
616
+ "learning_rate": 7.916666666666667e-06,
617
+ "loss": 0.3722,
618
+ "step": 690
619
+ },
620
+ {
621
+ "epoch": 14.005833333333333,
622
+ "grad_norm": 3.2339565753936768,
623
+ "learning_rate": 7.870370370370372e-06,
624
+ "loss": 0.1984,
625
+ "step": 700
626
+ },
627
+ {
628
+ "epoch": 14.01,
629
+ "grad_norm": 0.06678327918052673,
630
+ "learning_rate": 7.824074074074076e-06,
631
+ "loss": 0.0981,
632
+ "step": 710
633
+ },
634
+ {
635
+ "epoch": 14.014166666666666,
636
+ "grad_norm": 0.2941597104072571,
637
+ "learning_rate": 7.77777777777778e-06,
638
+ "loss": 0.5156,
639
+ "step": 720
640
+ },
641
+ {
642
+ "epoch": 14.018333333333333,
643
+ "grad_norm": 0.2059919536113739,
644
+ "learning_rate": 7.731481481481483e-06,
645
+ "loss": 0.2218,
646
+ "step": 730
647
+ },
648
+ {
649
+ "epoch": 14.020416666666666,
650
+ "eval_accuracy": 0.7368421052631579,
651
+ "eval_loss": 1.1691995859146118,
652
+ "eval_runtime": 3.7567,
653
+ "eval_samples_per_second": 5.058,
654
+ "eval_steps_per_second": 1.331,
655
+ "step": 735
656
+ },
657
+ {
658
+ "epoch": 15.002083333333333,
659
+ "grad_norm": 0.07924695312976837,
660
+ "learning_rate": 7.685185185185185e-06,
661
+ "loss": 0.2093,
662
+ "step": 740
663
+ },
664
+ {
665
+ "epoch": 15.00625,
666
+ "grad_norm": 24.16701316833496,
667
+ "learning_rate": 7.638888888888888e-06,
668
+ "loss": 0.4067,
669
+ "step": 750
670
+ },
671
+ {
672
+ "epoch": 15.010416666666666,
673
+ "grad_norm": 0.2460525929927826,
674
+ "learning_rate": 7.592592592592594e-06,
675
+ "loss": 0.3083,
676
+ "step": 760
677
+ },
678
+ {
679
+ "epoch": 15.014583333333333,
680
+ "grad_norm": 0.8729657530784607,
681
+ "learning_rate": 7.546296296296297e-06,
682
+ "loss": 0.1764,
683
+ "step": 770
684
+ },
685
+ {
686
+ "epoch": 15.01875,
687
+ "grad_norm": 107.28450775146484,
688
+ "learning_rate": 7.500000000000001e-06,
689
+ "loss": 0.7666,
690
+ "step": 780
691
+ },
692
+ {
693
+ "epoch": 15.020416666666666,
694
+ "eval_accuracy": 0.6842105263157895,
695
+ "eval_loss": 1.112523078918457,
696
+ "eval_runtime": 3.7224,
697
+ "eval_samples_per_second": 5.104,
698
+ "eval_steps_per_second": 1.343,
699
+ "step": 784
700
+ },
701
+ {
702
+ "epoch": 16.0025,
703
+ "grad_norm": 0.05592398717999458,
704
+ "learning_rate": 7.453703703703704e-06,
705
+ "loss": 0.1058,
706
+ "step": 790
707
+ },
708
+ {
709
+ "epoch": 16.006666666666668,
710
+ "grad_norm": 0.2081090658903122,
711
+ "learning_rate": 7.4074074074074075e-06,
712
+ "loss": 0.1724,
713
+ "step": 800
714
+ },
715
+ {
716
+ "epoch": 16.010833333333334,
717
+ "grad_norm": 0.08229461312294006,
718
+ "learning_rate": 7.361111111111112e-06,
719
+ "loss": 0.0088,
720
+ "step": 810
721
+ },
722
+ {
723
+ "epoch": 16.015,
724
+ "grad_norm": 2.331199884414673,
725
+ "learning_rate": 7.314814814814816e-06,
726
+ "loss": 0.0636,
727
+ "step": 820
728
+ },
729
+ {
730
+ "epoch": 16.019166666666667,
731
+ "grad_norm": 15.751022338867188,
732
+ "learning_rate": 7.268518518518519e-06,
733
+ "loss": 0.2171,
734
+ "step": 830
735
+ },
736
+ {
737
+ "epoch": 16.020416666666666,
738
+ "eval_accuracy": 0.7368421052631579,
739
+ "eval_loss": 1.2614731788635254,
740
+ "eval_runtime": 3.6912,
741
+ "eval_samples_per_second": 5.147,
742
+ "eval_steps_per_second": 1.355,
743
+ "step": 833
744
+ },
745
+ {
746
+ "epoch": 17.002916666666668,
747
+ "grad_norm": 0.13139835000038147,
748
+ "learning_rate": 7.222222222222223e-06,
749
+ "loss": 0.0529,
750
+ "step": 840
751
+ },
752
+ {
753
+ "epoch": 17.007083333333334,
754
+ "grad_norm": 146.87222290039062,
755
+ "learning_rate": 7.1759259259259266e-06,
756
+ "loss": 0.2678,
757
+ "step": 850
758
+ },
759
+ {
760
+ "epoch": 17.01125,
761
+ "grad_norm": 350.3876953125,
762
+ "learning_rate": 7.129629629629629e-06,
763
+ "loss": 0.217,
764
+ "step": 860
765
+ },
766
+ {
767
+ "epoch": 17.015416666666667,
768
+ "grad_norm": 0.5063939094543457,
769
+ "learning_rate": 7.083333333333335e-06,
770
+ "loss": 0.0078,
771
+ "step": 870
772
+ },
773
+ {
774
+ "epoch": 17.019583333333333,
775
+ "grad_norm": 247.79161071777344,
776
+ "learning_rate": 7.0370370370370375e-06,
777
+ "loss": 0.1152,
778
+ "step": 880
779
+ },
780
+ {
781
+ "epoch": 17.020416666666666,
782
+ "eval_accuracy": 0.7368421052631579,
783
+ "eval_loss": 1.3682870864868164,
784
+ "eval_runtime": 3.6816,
785
+ "eval_samples_per_second": 5.161,
786
+ "eval_steps_per_second": 1.358,
787
+ "step": 882
788
+ },
789
+ {
790
+ "epoch": 18.003333333333334,
791
+ "grad_norm": 0.03123622015118599,
792
+ "learning_rate": 6.990740740740741e-06,
793
+ "loss": 0.3538,
794
+ "step": 890
795
+ },
796
+ {
797
+ "epoch": 18.0075,
798
+ "grad_norm": 0.6689489483833313,
799
+ "learning_rate": 6.944444444444445e-06,
800
+ "loss": 0.1337,
801
+ "step": 900
802
+ },
803
+ {
804
+ "epoch": 18.011666666666667,
805
+ "grad_norm": 120.35101318359375,
806
+ "learning_rate": 6.898148148148148e-06,
807
+ "loss": 0.2021,
808
+ "step": 910
809
+ },
810
+ {
811
+ "epoch": 18.015833333333333,
812
+ "grad_norm": 6.242348670959473,
813
+ "learning_rate": 6.851851851851853e-06,
814
+ "loss": 0.1344,
815
+ "step": 920
816
+ },
817
+ {
818
+ "epoch": 18.02,
819
+ "grad_norm": 0.015488705597817898,
820
+ "learning_rate": 6.8055555555555566e-06,
821
+ "loss": 0.1941,
822
+ "step": 930
823
+ },
824
+ {
825
+ "epoch": 18.020416666666666,
826
+ "eval_accuracy": 0.7368421052631579,
827
+ "eval_loss": 1.391472578048706,
828
+ "eval_runtime": 3.6708,
829
+ "eval_samples_per_second": 5.176,
830
+ "eval_steps_per_second": 1.362,
831
+ "step": 931
832
+ },
833
+ {
834
+ "epoch": 19.00375,
835
+ "grad_norm": 107.10614013671875,
836
+ "learning_rate": 6.75925925925926e-06,
837
+ "loss": 0.0318,
838
+ "step": 940
839
+ },
840
+ {
841
+ "epoch": 19.007916666666667,
842
+ "grad_norm": 0.07496990263462067,
843
+ "learning_rate": 6.712962962962963e-06,
844
+ "loss": 0.0013,
845
+ "step": 950
846
+ },
847
+ {
848
+ "epoch": 19.012083333333333,
849
+ "grad_norm": 0.028873112052679062,
850
+ "learning_rate": 6.666666666666667e-06,
851
+ "loss": 0.2196,
852
+ "step": 960
853
+ },
854
+ {
855
+ "epoch": 19.01625,
856
+ "grad_norm": 0.06660551577806473,
857
+ "learning_rate": 6.620370370370371e-06,
858
+ "loss": 0.0014,
859
+ "step": 970
860
+ },
861
+ {
862
+ "epoch": 19.020416666666666,
863
+ "grad_norm": 89.06936645507812,
864
+ "learning_rate": 6.574074074074075e-06,
865
+ "loss": 0.0233,
866
+ "step": 980
867
+ },
868
+ {
869
+ "epoch": 19.020416666666666,
870
+ "eval_accuracy": 0.5789473684210527,
871
+ "eval_loss": 1.5971713066101074,
872
+ "eval_runtime": 3.6747,
873
+ "eval_samples_per_second": 5.171,
874
+ "eval_steps_per_second": 1.361,
875
+ "step": 980
876
+ },
877
+ {
878
+ "epoch": 20.004166666666666,
879
+ "grad_norm": 12.551525115966797,
880
+ "learning_rate": 6.5277777777777784e-06,
881
+ "loss": 0.1686,
882
+ "step": 990
883
+ },
884
+ {
885
+ "epoch": 20.008333333333333,
886
+ "grad_norm": 1.433871865272522,
887
+ "learning_rate": 6.481481481481482e-06,
888
+ "loss": 0.1168,
889
+ "step": 1000
890
+ },
891
+ {
892
+ "epoch": 20.0125,
893
+ "grad_norm": 0.3970452547073364,
894
+ "learning_rate": 6.435185185185186e-06,
895
+ "loss": 0.2299,
896
+ "step": 1010
897
+ },
898
+ {
899
+ "epoch": 20.016666666666666,
900
+ "grad_norm": 198.20985412597656,
901
+ "learning_rate": 6.3888888888888885e-06,
902
+ "loss": 0.2367,
903
+ "step": 1020
904
+ },
905
+ {
906
+ "epoch": 20.020416666666666,
907
+ "eval_accuracy": 0.6842105263157895,
908
+ "eval_loss": 1.7444992065429688,
909
+ "eval_runtime": 3.6107,
910
+ "eval_samples_per_second": 5.262,
911
+ "eval_steps_per_second": 1.385,
912
+ "step": 1029
913
+ },
914
+ {
915
+ "epoch": 21.000416666666666,
916
+ "grad_norm": 11.477893829345703,
917
+ "learning_rate": 6.342592592592594e-06,
918
+ "loss": 0.0874,
919
+ "step": 1030
920
+ },
921
+ {
922
+ "epoch": 21.004583333333333,
923
+ "grad_norm": 0.04803403466939926,
924
+ "learning_rate": 6.296296296296297e-06,
925
+ "loss": 0.0026,
926
+ "step": 1040
927
+ },
928
+ {
929
+ "epoch": 21.00875,
930
+ "grad_norm": 235.3900604248047,
931
+ "learning_rate": 6.25e-06,
932
+ "loss": 0.0272,
933
+ "step": 1050
934
+ },
935
+ {
936
+ "epoch": 21.012916666666666,
937
+ "grad_norm": 0.027185214683413506,
938
+ "learning_rate": 6.203703703703704e-06,
939
+ "loss": 0.1929,
940
+ "step": 1060
941
+ },
942
+ {
943
+ "epoch": 21.017083333333332,
944
+ "grad_norm": 1.3234747648239136,
945
+ "learning_rate": 6.157407407407408e-06,
946
+ "loss": 0.1575,
947
+ "step": 1070
948
+ },
949
+ {
950
+ "epoch": 21.020416666666666,
951
+ "eval_accuracy": 0.631578947368421,
952
+ "eval_loss": 2.403568744659424,
953
+ "eval_runtime": 3.6124,
954
+ "eval_samples_per_second": 5.26,
955
+ "eval_steps_per_second": 1.384,
956
+ "step": 1078
957
+ },
958
+ {
959
+ "epoch": 22.000833333333333,
960
+ "grad_norm": 0.030825955793261528,
961
+ "learning_rate": 6.111111111111112e-06,
962
+ "loss": 0.0207,
963
+ "step": 1080
964
+ },
965
+ {
966
+ "epoch": 22.005,
967
+ "grad_norm": 0.044659119099378586,
968
+ "learning_rate": 6.064814814814816e-06,
969
+ "loss": 0.1655,
970
+ "step": 1090
971
+ },
972
+ {
973
+ "epoch": 22.009166666666665,
974
+ "grad_norm": 0.07954849302768707,
975
+ "learning_rate": 6.018518518518519e-06,
976
+ "loss": 0.0036,
977
+ "step": 1100
978
+ },
979
+ {
980
+ "epoch": 22.013333333333332,
981
+ "grad_norm": 0.3902687132358551,
982
+ "learning_rate": 5.972222222222222e-06,
983
+ "loss": 0.0029,
984
+ "step": 1110
985
+ },
986
+ {
987
+ "epoch": 22.0175,
988
+ "grad_norm": 0.1071692705154419,
989
+ "learning_rate": 5.925925925925926e-06,
990
+ "loss": 0.0008,
991
+ "step": 1120
992
+ },
993
+ {
994
+ "epoch": 22.020416666666666,
995
+ "eval_accuracy": 0.631578947368421,
996
+ "eval_loss": 2.263265609741211,
997
+ "eval_runtime": 3.6163,
998
+ "eval_samples_per_second": 5.254,
999
+ "eval_steps_per_second": 1.383,
1000
+ "step": 1127
1001
+ },
1002
+ {
1003
+ "epoch": 23.00125,
1004
+ "grad_norm": 0.015230727382004261,
1005
+ "learning_rate": 5.8796296296296295e-06,
1006
+ "loss": 0.0928,
1007
+ "step": 1130
1008
+ },
1009
+ {
1010
+ "epoch": 23.005416666666665,
1011
+ "grad_norm": 42.0711669921875,
1012
+ "learning_rate": 5.833333333333334e-06,
1013
+ "loss": 0.3605,
1014
+ "step": 1140
1015
+ },
1016
+ {
1017
+ "epoch": 23.00958333333333,
1018
+ "grad_norm": 0.05277286097407341,
1019
+ "learning_rate": 5.787037037037038e-06,
1020
+ "loss": 0.0005,
1021
+ "step": 1150
1022
+ },
1023
+ {
1024
+ "epoch": 23.01375,
1025
+ "grad_norm": 0.020604358986020088,
1026
+ "learning_rate": 5.740740740740741e-06,
1027
+ "loss": 0.0006,
1028
+ "step": 1160
1029
+ },
1030
+ {
1031
+ "epoch": 23.017916666666668,
1032
+ "grad_norm": 0.007125093135982752,
1033
+ "learning_rate": 5.694444444444445e-06,
1034
+ "loss": 0.019,
1035
+ "step": 1170
1036
+ },
1037
+ {
1038
+ "epoch": 23.020416666666666,
1039
+ "eval_accuracy": 0.6842105263157895,
1040
+ "eval_loss": 2.2078418731689453,
1041
+ "eval_runtime": 3.6116,
1042
+ "eval_samples_per_second": 5.261,
1043
+ "eval_steps_per_second": 1.384,
1044
+ "step": 1176
1045
+ },
1046
+ {
1047
+ "epoch": 24.001666666666665,
1048
+ "grad_norm": 0.04864019155502319,
1049
+ "learning_rate": 5.6481481481481485e-06,
1050
+ "loss": 0.0005,
1051
+ "step": 1180
1052
+ },
1053
+ {
1054
+ "epoch": 24.00583333333333,
1055
+ "grad_norm": 0.06986731290817261,
1056
+ "learning_rate": 5.601851851851853e-06,
1057
+ "loss": 0.1865,
1058
+ "step": 1190
1059
+ },
1060
+ {
1061
+ "epoch": 24.01,
1062
+ "grad_norm": 0.045288749039173126,
1063
+ "learning_rate": 5.555555555555557e-06,
1064
+ "loss": 0.0021,
1065
+ "step": 1200
1066
+ },
1067
+ {
1068
+ "epoch": 24.014166666666668,
1069
+ "grad_norm": 0.12277600169181824,
1070
+ "learning_rate": 5.5092592592592595e-06,
1071
+ "loss": 0.0004,
1072
+ "step": 1210
1073
+ },
1074
+ {
1075
+ "epoch": 24.018333333333334,
1076
+ "grad_norm": 0.006932346150279045,
1077
+ "learning_rate": 5.462962962962963e-06,
1078
+ "loss": 0.0006,
1079
+ "step": 1220
1080
+ },
1081
+ {
1082
+ "epoch": 24.020416666666666,
1083
+ "eval_accuracy": 0.631578947368421,
1084
+ "eval_loss": 2.1280739307403564,
1085
+ "eval_runtime": 3.6117,
1086
+ "eval_samples_per_second": 5.261,
1087
+ "eval_steps_per_second": 1.384,
1088
+ "step": 1225
1089
+ },
1090
+ {
1091
+ "epoch": 25.002083333333335,
1092
+ "grad_norm": 0.016528107225894928,
1093
+ "learning_rate": 5.416666666666667e-06,
1094
+ "loss": 0.0003,
1095
+ "step": 1230
1096
+ },
1097
+ {
1098
+ "epoch": 25.00625,
1099
+ "grad_norm": 0.013506701216101646,
1100
+ "learning_rate": 5.370370370370371e-06,
1101
+ "loss": 0.0024,
1102
+ "step": 1240
1103
+ },
1104
+ {
1105
+ "epoch": 25.010416666666668,
1106
+ "grad_norm": 0.5438185334205627,
1107
+ "learning_rate": 5.324074074074075e-06,
1108
+ "loss": 0.0005,
1109
+ "step": 1250
1110
+ },
1111
+ {
1112
+ "epoch": 25.014583333333334,
1113
+ "grad_norm": 0.03781206160783768,
1114
+ "learning_rate": 5.2777777777777785e-06,
1115
+ "loss": 0.0003,
1116
+ "step": 1260
1117
+ },
1118
+ {
1119
+ "epoch": 25.01875,
1120
+ "grad_norm": 0.0206539798527956,
1121
+ "learning_rate": 5.231481481481482e-06,
1122
+ "loss": 0.0004,
1123
+ "step": 1270
1124
+ },
1125
+ {
1126
+ "epoch": 25.020416666666666,
1127
+ "eval_accuracy": 0.7368421052631579,
1128
+ "eval_loss": 2.010007381439209,
1129
+ "eval_runtime": 3.6278,
1130
+ "eval_samples_per_second": 5.237,
1131
+ "eval_steps_per_second": 1.378,
1132
+ "step": 1274
1133
+ },
1134
+ {
1135
+ "epoch": 26.0025,
1136
+ "grad_norm": 0.023114336654543877,
1137
+ "learning_rate": 5.185185185185185e-06,
1138
+ "loss": 0.0002,
1139
+ "step": 1280
1140
+ },
1141
+ {
1142
+ "epoch": 26.006666666666668,
1143
+ "grad_norm": 0.013670257292687893,
1144
+ "learning_rate": 5.138888888888889e-06,
1145
+ "loss": 0.002,
1146
+ "step": 1290
1147
+ },
1148
+ {
1149
+ "epoch": 26.010833333333334,
1150
+ "grad_norm": 0.0056487866677343845,
1151
+ "learning_rate": 5.092592592592593e-06,
1152
+ "loss": 0.0004,
1153
+ "step": 1300
1154
+ },
1155
+ {
1156
+ "epoch": 26.015,
1157
+ "grad_norm": 0.004165478516370058,
1158
+ "learning_rate": 5.046296296296297e-06,
1159
+ "loss": 0.0003,
1160
+ "step": 1310
1161
+ },
1162
+ {
1163
+ "epoch": 26.019166666666667,
1164
+ "grad_norm": 0.004816366359591484,
1165
+ "learning_rate": 5e-06,
1166
+ "loss": 0.0002,
1167
+ "step": 1320
1168
+ },
1169
+ {
1170
+ "epoch": 26.020416666666666,
1171
+ "eval_accuracy": 0.631578947368421,
1172
+ "eval_loss": 2.3861982822418213,
1173
+ "eval_runtime": 3.6074,
1174
+ "eval_samples_per_second": 5.267,
1175
+ "eval_steps_per_second": 1.386,
1176
+ "step": 1323
1177
+ },
1178
+ {
1179
+ "epoch": 27.002916666666668,
1180
+ "grad_norm": 0.006848832592368126,
1181
+ "learning_rate": 4.953703703703704e-06,
1182
+ "loss": 0.0062,
1183
+ "step": 1330
1184
+ },
1185
+ {
1186
+ "epoch": 27.007083333333334,
1187
+ "grad_norm": 530.533935546875,
1188
+ "learning_rate": 4.907407407407408e-06,
1189
+ "loss": 0.0309,
1190
+ "step": 1340
1191
+ },
1192
+ {
1193
+ "epoch": 27.01125,
1194
+ "grad_norm": 0.007108121179044247,
1195
+ "learning_rate": 4.861111111111111e-06,
1196
+ "loss": 0.0002,
1197
+ "step": 1350
1198
+ },
1199
+ {
1200
+ "epoch": 27.015416666666667,
1201
+ "grad_norm": 0.0033726587425917387,
1202
+ "learning_rate": 4.814814814814815e-06,
1203
+ "loss": 0.116,
1204
+ "step": 1360
1205
+ },
1206
+ {
1207
+ "epoch": 27.019583333333333,
1208
+ "grad_norm": 0.020084122195839882,
1209
+ "learning_rate": 4.768518518518519e-06,
1210
+ "loss": 0.0003,
1211
+ "step": 1370
1212
+ },
1213
+ {
1214
+ "epoch": 27.020416666666666,
1215
+ "eval_accuracy": 0.6842105263157895,
1216
+ "eval_loss": 2.1578803062438965,
1217
+ "eval_runtime": 3.6309,
1218
+ "eval_samples_per_second": 5.233,
1219
+ "eval_steps_per_second": 1.377,
1220
+ "step": 1372
1221
+ },
1222
+ {
1223
+ "epoch": 28.003333333333334,
1224
+ "grad_norm": 0.05458810552954674,
1225
+ "learning_rate": 4.722222222222222e-06,
1226
+ "loss": 0.0002,
1227
+ "step": 1380
1228
+ },
1229
+ {
1230
+ "epoch": 28.0075,
1231
+ "grad_norm": 0.005413507577031851,
1232
+ "learning_rate": 4.675925925925927e-06,
1233
+ "loss": 0.0002,
1234
+ "step": 1390
1235
+ },
1236
+ {
1237
+ "epoch": 28.011666666666667,
1238
+ "grad_norm": 0.006965883541852236,
1239
+ "learning_rate": 4.62962962962963e-06,
1240
+ "loss": 0.0002,
1241
+ "step": 1400
1242
+ },
1243
+ {
1244
+ "epoch": 28.015833333333333,
1245
+ "grad_norm": 0.06325055658817291,
1246
+ "learning_rate": 4.583333333333333e-06,
1247
+ "loss": 0.0002,
1248
+ "step": 1410
1249
+ },
1250
+ {
1251
+ "epoch": 28.02,
1252
+ "grad_norm": 0.031983036547899246,
1253
+ "learning_rate": 4.537037037037038e-06,
1254
+ "loss": 0.0372,
1255
+ "step": 1420
1256
+ },
1257
+ {
1258
+ "epoch": 28.020416666666666,
1259
+ "eval_accuracy": 0.6842105263157895,
1260
+ "eval_loss": 2.122598648071289,
1261
+ "eval_runtime": 3.5383,
1262
+ "eval_samples_per_second": 5.37,
1263
+ "eval_steps_per_second": 1.413,
1264
+ "step": 1421
1265
+ },
1266
+ {
1267
+ "epoch": 29.00375,
1268
+ "grad_norm": 0.07857130467891693,
1269
+ "learning_rate": 4.490740740740741e-06,
1270
+ "loss": 0.0006,
1271
+ "step": 1430
1272
+ },
1273
+ {
1274
+ "epoch": 29.007916666666667,
1275
+ "grad_norm": 0.016926715150475502,
1276
+ "learning_rate": 4.444444444444444e-06,
1277
+ "loss": 0.001,
1278
+ "step": 1440
1279
+ },
1280
+ {
1281
+ "epoch": 29.012083333333333,
1282
+ "grad_norm": 0.009676299057900906,
1283
+ "learning_rate": 4.398148148148149e-06,
1284
+ "loss": 0.0705,
1285
+ "step": 1450
1286
+ },
1287
+ {
1288
+ "epoch": 29.01625,
1289
+ "grad_norm": 0.006083638872951269,
1290
+ "learning_rate": 4.351851851851852e-06,
1291
+ "loss": 0.0002,
1292
+ "step": 1460
1293
+ },
1294
+ {
1295
+ "epoch": 29.020416666666666,
1296
+ "grad_norm": 0.006985980086028576,
1297
+ "learning_rate": 4.305555555555556e-06,
1298
+ "loss": 0.1547,
1299
+ "step": 1470
1300
+ },
1301
+ {
1302
+ "epoch": 29.020416666666666,
1303
+ "eval_accuracy": 0.6842105263157895,
1304
+ "eval_loss": 2.4948902130126953,
1305
+ "eval_runtime": 3.5201,
1306
+ "eval_samples_per_second": 5.398,
1307
+ "eval_steps_per_second": 1.42,
1308
+ "step": 1470
1309
+ },
1310
+ {
1311
+ "epoch": 30.004166666666666,
1312
+ "grad_norm": 0.009625507518649101,
1313
+ "learning_rate": 4.2592592592592596e-06,
1314
+ "loss": 0.0104,
1315
+ "step": 1480
1316
+ },
1317
+ {
1318
+ "epoch": 30.008333333333333,
1319
+ "grad_norm": 0.006220038048923016,
1320
+ "learning_rate": 4.212962962962963e-06,
1321
+ "loss": 0.0002,
1322
+ "step": 1490
1323
+ },
1324
+ {
1325
+ "epoch": 30.0125,
1326
+ "grad_norm": 0.0076056793332099915,
1327
+ "learning_rate": 4.166666666666667e-06,
1328
+ "loss": 0.0006,
1329
+ "step": 1500
1330
+ },
1331
+ {
1332
+ "epoch": 30.016666666666666,
1333
+ "grad_norm": 16.74993133544922,
1334
+ "learning_rate": 4.1203703703703705e-06,
1335
+ "loss": 0.0015,
1336
+ "step": 1510
1337
+ },
1338
+ {
1339
+ "epoch": 30.020416666666666,
1340
+ "eval_accuracy": 0.6842105263157895,
1341
+ "eval_loss": 1.881516933441162,
1342
+ "eval_runtime": 3.5962,
1343
+ "eval_samples_per_second": 5.283,
1344
+ "eval_steps_per_second": 1.39,
1345
+ "step": 1519
1346
+ },
1347
+ {
1348
+ "epoch": 31.000416666666666,
1349
+ "grad_norm": 0.010737285017967224,
1350
+ "learning_rate": 4.074074074074074e-06,
1351
+ "loss": 0.0596,
1352
+ "step": 1520
1353
+ },
1354
+ {
1355
+ "epoch": 31.004583333333333,
1356
+ "grad_norm": 0.004095606505870819,
1357
+ "learning_rate": 4.027777777777779e-06,
1358
+ "loss": 0.0001,
1359
+ "step": 1530
1360
+ },
1361
+ {
1362
+ "epoch": 31.00875,
1363
+ "grad_norm": 0.38500717282295227,
1364
+ "learning_rate": 3.9814814814814814e-06,
1365
+ "loss": 0.0003,
1366
+ "step": 1540
1367
+ },
1368
+ {
1369
+ "epoch": 31.012916666666666,
1370
+ "grad_norm": 35.35988235473633,
1371
+ "learning_rate": 3.935185185185186e-06,
1372
+ "loss": 0.0024,
1373
+ "step": 1550
1374
+ },
1375
+ {
1376
+ "epoch": 31.017083333333332,
1377
+ "grad_norm": 0.006391994189471006,
1378
+ "learning_rate": 3.88888888888889e-06,
1379
+ "loss": 0.0005,
1380
+ "step": 1560
1381
+ },
1382
+ {
1383
+ "epoch": 31.020416666666666,
1384
+ "eval_accuracy": 0.631578947368421,
1385
+ "eval_loss": 2.258211135864258,
1386
+ "eval_runtime": 3.5634,
1387
+ "eval_samples_per_second": 5.332,
1388
+ "eval_steps_per_second": 1.403,
1389
+ "step": 1568
1390
+ },
1391
+ {
1392
+ "epoch": 32.00083333333333,
1393
+ "grad_norm": 0.0057472470216453075,
1394
+ "learning_rate": 3.842592592592592e-06,
1395
+ "loss": 0.0005,
1396
+ "step": 1570
1397
+ },
1398
+ {
1399
+ "epoch": 32.005,
1400
+ "grad_norm": 0.011224722489714622,
1401
+ "learning_rate": 3.796296296296297e-06,
1402
+ "loss": 0.1187,
1403
+ "step": 1580
1404
+ },
1405
+ {
1406
+ "epoch": 32.009166666666665,
1407
+ "grad_norm": 0.0647362545132637,
1408
+ "learning_rate": 3.7500000000000005e-06,
1409
+ "loss": 0.0003,
1410
+ "step": 1590
1411
+ },
1412
+ {
1413
+ "epoch": 32.013333333333335,
1414
+ "grad_norm": 0.15853719413280487,
1415
+ "learning_rate": 3.7037037037037037e-06,
1416
+ "loss": 0.0002,
1417
+ "step": 1600
1418
+ },
1419
+ {
1420
+ "epoch": 32.0175,
1421
+ "grad_norm": 0.00835301075130701,
1422
+ "learning_rate": 3.657407407407408e-06,
1423
+ "loss": 0.0002,
1424
+ "step": 1610
1425
+ },
1426
+ {
1427
+ "epoch": 32.02041666666667,
1428
+ "eval_accuracy": 0.631578947368421,
1429
+ "eval_loss": 2.1774301528930664,
1430
+ "eval_runtime": 3.4326,
1431
+ "eval_samples_per_second": 5.535,
1432
+ "eval_steps_per_second": 1.457,
1433
+ "step": 1617
1434
+ },
1435
+ {
1436
+ "epoch": 33.00125,
1437
+ "grad_norm": 0.04617740586400032,
1438
+ "learning_rate": 3.6111111111111115e-06,
1439
+ "loss": 0.0002,
1440
+ "step": 1620
1441
+ },
1442
+ {
1443
+ "epoch": 33.00541666666667,
1444
+ "grad_norm": 0.009918724186718464,
1445
+ "learning_rate": 3.5648148148148147e-06,
1446
+ "loss": 0.2072,
1447
+ "step": 1630
1448
+ },
1449
+ {
1450
+ "epoch": 33.00958333333333,
1451
+ "grad_norm": 0.020935775712132454,
1452
+ "learning_rate": 3.5185185185185187e-06,
1453
+ "loss": 0.2234,
1454
+ "step": 1640
1455
+ },
1456
+ {
1457
+ "epoch": 33.01375,
1458
+ "grad_norm": 0.12407401949167252,
1459
+ "learning_rate": 3.4722222222222224e-06,
1460
+ "loss": 0.0177,
1461
+ "step": 1650
1462
+ },
1463
+ {
1464
+ "epoch": 33.017916666666665,
1465
+ "grad_norm": 0.007428634911775589,
1466
+ "learning_rate": 3.4259259259259265e-06,
1467
+ "loss": 0.0001,
1468
+ "step": 1660
1469
+ },
1470
+ {
1471
+ "epoch": 33.02041666666667,
1472
+ "eval_accuracy": 0.631578947368421,
1473
+ "eval_loss": 2.2221832275390625,
1474
+ "eval_runtime": 3.4343,
1475
+ "eval_samples_per_second": 5.532,
1476
+ "eval_steps_per_second": 1.456,
1477
+ "step": 1666
1478
+ },
1479
+ {
1480
+ "epoch": 34.001666666666665,
1481
+ "grad_norm": 0.0065287998877465725,
1482
+ "learning_rate": 3.37962962962963e-06,
1483
+ "loss": 0.0002,
1484
+ "step": 1670
1485
+ },
1486
+ {
1487
+ "epoch": 34.005833333333335,
1488
+ "grad_norm": 0.11280619353055954,
1489
+ "learning_rate": 3.3333333333333333e-06,
1490
+ "loss": 0.0003,
1491
+ "step": 1680
1492
+ },
1493
+ {
1494
+ "epoch": 34.01,
1495
+ "grad_norm": 0.019788485020399094,
1496
+ "learning_rate": 3.2870370370370374e-06,
1497
+ "loss": 0.0003,
1498
+ "step": 1690
1499
+ },
1500
+ {
1501
+ "epoch": 34.01416666666667,
1502
+ "grad_norm": 0.003129773773252964,
1503
+ "learning_rate": 3.240740740740741e-06,
1504
+ "loss": 0.0006,
1505
+ "step": 1700
1506
+ },
1507
+ {
1508
+ "epoch": 34.01833333333333,
1509
+ "grad_norm": 0.004923813510686159,
1510
+ "learning_rate": 3.1944444444444443e-06,
1511
+ "loss": 0.0001,
1512
+ "step": 1710
1513
+ },
1514
+ {
1515
+ "epoch": 34.02041666666667,
1516
+ "eval_accuracy": 0.631578947368421,
1517
+ "eval_loss": 2.356006383895874,
1518
+ "eval_runtime": 3.4358,
1519
+ "eval_samples_per_second": 5.53,
1520
+ "eval_steps_per_second": 1.455,
1521
+ "step": 1715
1522
+ },
1523
+ {
1524
+ "epoch": 35.00208333333333,
1525
+ "grad_norm": 0.04086696729063988,
1526
+ "learning_rate": 3.1481481481481483e-06,
1527
+ "loss": 0.0002,
1528
+ "step": 1720
1529
+ },
1530
+ {
1531
+ "epoch": 35.00625,
1532
+ "grad_norm": 0.0031430383678525686,
1533
+ "learning_rate": 3.101851851851852e-06,
1534
+ "loss": 0.0002,
1535
+ "step": 1730
1536
+ },
1537
+ {
1538
+ "epoch": 35.010416666666664,
1539
+ "grad_norm": 0.004690348170697689,
1540
+ "learning_rate": 3.055555555555556e-06,
1541
+ "loss": 0.0001,
1542
+ "step": 1740
1543
+ },
1544
+ {
1545
+ "epoch": 35.014583333333334,
1546
+ "grad_norm": 0.005091555416584015,
1547
+ "learning_rate": 3.0092592592592597e-06,
1548
+ "loss": 0.0002,
1549
+ "step": 1750
1550
+ },
1551
+ {
1552
+ "epoch": 35.01875,
1553
+ "grad_norm": 0.07692966610193253,
1554
+ "learning_rate": 2.962962962962963e-06,
1555
+ "loss": 0.0001,
1556
+ "step": 1760
1557
+ },
1558
+ {
1559
+ "epoch": 35.02041666666667,
1560
+ "eval_accuracy": 0.631578947368421,
1561
+ "eval_loss": 2.390404462814331,
1562
+ "eval_runtime": 3.4314,
1563
+ "eval_samples_per_second": 5.537,
1564
+ "eval_steps_per_second": 1.457,
1565
+ "step": 1764
1566
+ },
1567
+ {
1568
+ "epoch": 36.0025,
1569
+ "grad_norm": 0.003334124805405736,
1570
+ "learning_rate": 2.916666666666667e-06,
1571
+ "loss": 0.0002,
1572
+ "step": 1770
1573
+ },
1574
+ {
1575
+ "epoch": 36.00666666666667,
1576
+ "grad_norm": 258.331298828125,
1577
+ "learning_rate": 2.8703703703703706e-06,
1578
+ "loss": 0.0424,
1579
+ "step": 1780
1580
+ },
1581
+ {
1582
+ "epoch": 36.01083333333333,
1583
+ "grad_norm": 0.010029267519712448,
1584
+ "learning_rate": 2.8240740740740743e-06,
1585
+ "loss": 0.0001,
1586
+ "step": 1790
1587
+ },
1588
+ {
1589
+ "epoch": 36.015,
1590
+ "grad_norm": 0.0017382479272782803,
1591
+ "learning_rate": 2.7777777777777783e-06,
1592
+ "loss": 0.0001,
1593
+ "step": 1800
1594
+ },
1595
+ {
1596
+ "epoch": 36.01916666666666,
1597
+ "grad_norm": 0.0759102925658226,
1598
+ "learning_rate": 2.7314814814814816e-06,
1599
+ "loss": 0.0001,
1600
+ "step": 1810
1601
+ },
1602
+ {
1603
+ "epoch": 36.02041666666667,
1604
+ "eval_accuracy": 0.7368421052631579,
1605
+ "eval_loss": 2.2239937782287598,
1606
+ "eval_runtime": 3.6381,
1607
+ "eval_samples_per_second": 5.223,
1608
+ "eval_steps_per_second": 1.374,
1609
+ "step": 1813
1610
+ },
1611
+ {
1612
+ "epoch": 37.002916666666664,
1613
+ "grad_norm": 0.003970419522374868,
1614
+ "learning_rate": 2.6851851851851856e-06,
1615
+ "loss": 0.0001,
1616
+ "step": 1820
1617
+ },
1618
+ {
1619
+ "epoch": 37.007083333333334,
1620
+ "grad_norm": 0.005589651875197887,
1621
+ "learning_rate": 2.6388888888888893e-06,
1622
+ "loss": 0.0001,
1623
+ "step": 1830
1624
+ },
1625
+ {
1626
+ "epoch": 37.01125,
1627
+ "grad_norm": 0.00631442666053772,
1628
+ "learning_rate": 2.5925925925925925e-06,
1629
+ "loss": 0.0007,
1630
+ "step": 1840
1631
+ },
1632
+ {
1633
+ "epoch": 37.01541666666667,
1634
+ "grad_norm": 0.0022680216934531927,
1635
+ "learning_rate": 2.5462962962962966e-06,
1636
+ "loss": 0.0001,
1637
+ "step": 1850
1638
+ },
1639
+ {
1640
+ "epoch": 37.01958333333334,
1641
+ "grad_norm": 0.630527913570404,
1642
+ "learning_rate": 2.5e-06,
1643
+ "loss": 0.0002,
1644
+ "step": 1860
1645
+ },
1646
+ {
1647
+ "epoch": 37.02041666666667,
1648
+ "eval_accuracy": 0.6842105263157895,
1649
+ "eval_loss": 2.287989854812622,
1650
+ "eval_runtime": 3.4557,
1651
+ "eval_samples_per_second": 5.498,
1652
+ "eval_steps_per_second": 1.447,
1653
+ "step": 1862
1654
+ },
1655
+ {
1656
+ "epoch": 38.00333333333333,
1657
+ "grad_norm": 0.018673082813620567,
1658
+ "learning_rate": 2.453703703703704e-06,
1659
+ "loss": 0.0002,
1660
+ "step": 1870
1661
+ },
1662
+ {
1663
+ "epoch": 38.0075,
1664
+ "grad_norm": 0.2521021068096161,
1665
+ "learning_rate": 2.4074074074074075e-06,
1666
+ "loss": 0.0011,
1667
+ "step": 1880
1668
+ },
1669
+ {
1670
+ "epoch": 38.01166666666666,
1671
+ "grad_norm": 0.004206162411719561,
1672
+ "learning_rate": 2.361111111111111e-06,
1673
+ "loss": 0.0001,
1674
+ "step": 1890
1675
+ },
1676
+ {
1677
+ "epoch": 38.01583333333333,
1678
+ "grad_norm": 0.003568112850189209,
1679
+ "learning_rate": 2.314814814814815e-06,
1680
+ "loss": 0.0001,
1681
+ "step": 1900
1682
+ },
1683
+ {
1684
+ "epoch": 38.02,
1685
+ "grad_norm": 0.03349081426858902,
1686
+ "learning_rate": 2.268518518518519e-06,
1687
+ "loss": 0.0002,
1688
+ "step": 1910
1689
+ },
1690
+ {
1691
+ "epoch": 38.02041666666667,
1692
+ "eval_accuracy": 0.6842105263157895,
1693
+ "eval_loss": 2.300963878631592,
1694
+ "eval_runtime": 3.4283,
1695
+ "eval_samples_per_second": 5.542,
1696
+ "eval_steps_per_second": 1.458,
1697
+ "step": 1911
1698
+ },
1699
+ {
1700
+ "epoch": 39.00375,
1701
+ "grad_norm": 0.0027008787728846073,
1702
+ "learning_rate": 2.222222222222222e-06,
1703
+ "loss": 0.0001,
1704
+ "step": 1920
1705
+ },
1706
+ {
1707
+ "epoch": 39.00791666666667,
1708
+ "grad_norm": 0.0040114871226251125,
1709
+ "learning_rate": 2.175925925925926e-06,
1710
+ "loss": 0.0001,
1711
+ "step": 1930
1712
+ },
1713
+ {
1714
+ "epoch": 39.01208333333334,
1715
+ "grad_norm": 0.002579754451289773,
1716
+ "learning_rate": 2.1296296296296298e-06,
1717
+ "loss": 0.0001,
1718
+ "step": 1940
1719
+ },
1720
+ {
1721
+ "epoch": 39.01625,
1722
+ "grad_norm": 0.003918965347111225,
1723
+ "learning_rate": 2.0833333333333334e-06,
1724
+ "loss": 0.0001,
1725
+ "step": 1950
1726
+ },
1727
+ {
1728
+ "epoch": 39.02041666666667,
1729
+ "grad_norm": 0.002216913038864732,
1730
+ "learning_rate": 2.037037037037037e-06,
1731
+ "loss": 0.0001,
1732
+ "step": 1960
1733
+ },
1734
+ {
1735
+ "epoch": 39.02041666666667,
1736
+ "eval_accuracy": 0.6842105263157895,
1737
+ "eval_loss": 2.3123650550842285,
1738
+ "eval_runtime": 3.4399,
1739
+ "eval_samples_per_second": 5.523,
1740
+ "eval_steps_per_second": 1.454,
1741
+ "step": 1960
1742
+ },
1743
+ {
1744
+ "epoch": 40.00416666666667,
1745
+ "grad_norm": 0.001679323031567037,
1746
+ "learning_rate": 1.9907407407407407e-06,
1747
+ "loss": 0.0001,
1748
+ "step": 1970
1749
+ },
1750
+ {
1751
+ "epoch": 40.00833333333333,
1752
+ "grad_norm": 0.004570376593619585,
1753
+ "learning_rate": 1.944444444444445e-06,
1754
+ "loss": 0.0028,
1755
+ "step": 1980
1756
+ },
1757
+ {
1758
+ "epoch": 40.0125,
1759
+ "grad_norm": 0.0024077030830085278,
1760
+ "learning_rate": 1.8981481481481484e-06,
1761
+ "loss": 0.078,
1762
+ "step": 1990
1763
+ },
1764
+ {
1765
+ "epoch": 40.016666666666666,
1766
+ "grad_norm": 0.0020433454774320126,
1767
+ "learning_rate": 1.8518518518518519e-06,
1768
+ "loss": 0.0001,
1769
+ "step": 2000
1770
+ },
1771
+ {
1772
+ "epoch": 40.02041666666667,
1773
+ "eval_accuracy": 0.6842105263157895,
1774
+ "eval_loss": 2.2903194427490234,
1775
+ "eval_runtime": 3.4213,
1776
+ "eval_samples_per_second": 5.553,
1777
+ "eval_steps_per_second": 1.461,
1778
+ "step": 2009
1779
+ },
1780
+ {
1781
+ "epoch": 41.000416666666666,
1782
+ "grad_norm": 0.007383950520306826,
1783
+ "learning_rate": 1.8055555555555557e-06,
1784
+ "loss": 0.0001,
1785
+ "step": 2010
1786
+ },
1787
+ {
1788
+ "epoch": 41.004583333333336,
1789
+ "grad_norm": 0.005234722048044205,
1790
+ "learning_rate": 1.7592592592592594e-06,
1791
+ "loss": 0.0002,
1792
+ "step": 2020
1793
+ },
1794
+ {
1795
+ "epoch": 41.00875,
1796
+ "grad_norm": 0.01151933241635561,
1797
+ "learning_rate": 1.7129629629629632e-06,
1798
+ "loss": 0.0001,
1799
+ "step": 2030
1800
+ },
1801
+ {
1802
+ "epoch": 41.01291666666667,
1803
+ "grad_norm": 0.03747610002756119,
1804
+ "learning_rate": 1.6666666666666667e-06,
1805
+ "loss": 0.0001,
1806
+ "step": 2040
1807
+ },
1808
+ {
1809
+ "epoch": 41.01708333333333,
1810
+ "grad_norm": 0.00581372668966651,
1811
+ "learning_rate": 1.6203703703703705e-06,
1812
+ "loss": 0.1744,
1813
+ "step": 2050
1814
+ },
1815
+ {
1816
+ "epoch": 41.02041666666667,
1817
+ "eval_accuracy": 0.6842105263157895,
1818
+ "eval_loss": 2.3067450523376465,
1819
+ "eval_runtime": 3.4324,
1820
+ "eval_samples_per_second": 5.535,
1821
+ "eval_steps_per_second": 1.457,
1822
+ "step": 2058
1823
+ },
1824
+ {
1825
+ "epoch": 42.00083333333333,
1826
+ "grad_norm": 0.003268251661211252,
1827
+ "learning_rate": 1.5740740740740742e-06,
1828
+ "loss": 0.0001,
1829
+ "step": 2060
1830
+ },
1831
+ {
1832
+ "epoch": 42.005,
1833
+ "grad_norm": 0.005169464275240898,
1834
+ "learning_rate": 1.527777777777778e-06,
1835
+ "loss": 0.0001,
1836
+ "step": 2070
1837
+ },
1838
+ {
1839
+ "epoch": 42.009166666666665,
1840
+ "grad_norm": 0.0015214293962344527,
1841
+ "learning_rate": 1.4814814814814815e-06,
1842
+ "loss": 0.1229,
1843
+ "step": 2080
1844
+ },
1845
+ {
1846
+ "epoch": 42.013333333333335,
1847
+ "grad_norm": 249.32093811035156,
1848
+ "learning_rate": 1.4351851851851853e-06,
1849
+ "loss": 0.0128,
1850
+ "step": 2090
1851
+ },
1852
+ {
1853
+ "epoch": 42.0175,
1854
+ "grad_norm": 0.007209462579339743,
1855
+ "learning_rate": 1.3888888888888892e-06,
1856
+ "loss": 0.0001,
1857
+ "step": 2100
1858
+ },
1859
+ {
1860
+ "epoch": 42.02041666666667,
1861
+ "eval_accuracy": 0.6842105263157895,
1862
+ "eval_loss": 2.342156171798706,
1863
+ "eval_runtime": 3.4328,
1864
+ "eval_samples_per_second": 5.535,
1865
+ "eval_steps_per_second": 1.457,
1866
+ "step": 2107
1867
+ },
1868
+ {
1869
+ "epoch": 43.00125,
1870
+ "grad_norm": 0.0031976569443941116,
1871
+ "learning_rate": 1.3425925925925928e-06,
1872
+ "loss": 0.0001,
1873
+ "step": 2110
1874
+ },
1875
+ {
1876
+ "epoch": 43.00541666666667,
1877
+ "grad_norm": 0.0036477481480687857,
1878
+ "learning_rate": 1.2962962962962962e-06,
1879
+ "loss": 0.0001,
1880
+ "step": 2120
1881
+ },
1882
+ {
1883
+ "epoch": 43.00958333333333,
1884
+ "grad_norm": 0.00543107558041811,
1885
+ "learning_rate": 1.25e-06,
1886
+ "loss": 0.0001,
1887
+ "step": 2130
1888
+ },
1889
+ {
1890
+ "epoch": 43.01375,
1891
+ "grad_norm": 0.006350014358758926,
1892
+ "learning_rate": 1.2037037037037037e-06,
1893
+ "loss": 0.0001,
1894
+ "step": 2140
1895
+ },
1896
+ {
1897
+ "epoch": 43.017916666666665,
1898
+ "grad_norm": 0.008976898156106472,
1899
+ "learning_rate": 1.1574074074074076e-06,
1900
+ "loss": 0.0001,
1901
+ "step": 2150
1902
+ },
1903
+ {
1904
+ "epoch": 43.02041666666667,
1905
+ "eval_accuracy": 0.6842105263157895,
1906
+ "eval_loss": 2.3476860523223877,
1907
+ "eval_runtime": 3.4979,
1908
+ "eval_samples_per_second": 5.432,
1909
+ "eval_steps_per_second": 1.429,
1910
+ "step": 2156
1911
+ },
1912
+ {
1913
+ "epoch": 44.001666666666665,
1914
+ "grad_norm": 0.006657883990556002,
1915
+ "learning_rate": 1.111111111111111e-06,
1916
+ "loss": 0.0001,
1917
+ "step": 2160
1918
+ },
1919
+ {
1920
+ "epoch": 44.005833333333335,
1921
+ "grad_norm": 0.005237992387264967,
1922
+ "learning_rate": 1.0648148148148149e-06,
1923
+ "loss": 0.0001,
1924
+ "step": 2170
1925
+ },
1926
+ {
1927
+ "epoch": 44.01,
1928
+ "grad_norm": 0.003178667975589633,
1929
+ "learning_rate": 1.0185185185185185e-06,
1930
+ "loss": 0.0001,
1931
+ "step": 2180
1932
+ },
1933
+ {
1934
+ "epoch": 44.01416666666667,
1935
+ "grad_norm": 0.0024578028824180365,
1936
+ "learning_rate": 9.722222222222224e-07,
1937
+ "loss": 0.0003,
1938
+ "step": 2190
1939
+ },
1940
+ {
1941
+ "epoch": 44.01833333333333,
1942
+ "grad_norm": 0.00786686223000288,
1943
+ "learning_rate": 9.259259259259259e-07,
1944
+ "loss": 0.0001,
1945
+ "step": 2200
1946
+ },
1947
+ {
1948
+ "epoch": 44.02041666666667,
1949
+ "eval_accuracy": 0.631578947368421,
1950
+ "eval_loss": 2.378264904022217,
1951
+ "eval_runtime": 3.5284,
1952
+ "eval_samples_per_second": 5.385,
1953
+ "eval_steps_per_second": 1.417,
1954
+ "step": 2205
1955
+ },
1956
+ {
1957
+ "epoch": 45.00208333333333,
1958
+ "grad_norm": 0.0038455643225461245,
1959
+ "learning_rate": 8.796296296296297e-07,
1960
+ "loss": 0.0002,
1961
+ "step": 2210
1962
+ },
1963
+ {
1964
+ "epoch": 45.00625,
1965
+ "grad_norm": 0.0019002072513103485,
1966
+ "learning_rate": 8.333333333333333e-07,
1967
+ "loss": 0.0001,
1968
+ "step": 2220
1969
+ },
1970
+ {
1971
+ "epoch": 45.010416666666664,
1972
+ "grad_norm": 0.002483098302036524,
1973
+ "learning_rate": 7.870370370370371e-07,
1974
+ "loss": 0.0001,
1975
+ "step": 2230
1976
+ },
1977
+ {
1978
+ "epoch": 45.014583333333334,
1979
+ "grad_norm": 0.0028833537362515926,
1980
+ "learning_rate": 7.407407407407407e-07,
1981
+ "loss": 0.0002,
1982
+ "step": 2240
1983
+ },
1984
+ {
1985
+ "epoch": 45.01875,
1986
+ "grad_norm": 0.0019563958048820496,
1987
+ "learning_rate": 6.944444444444446e-07,
1988
+ "loss": 0.0001,
1989
+ "step": 2250
1990
+ },
1991
+ {
1992
+ "epoch": 45.02041666666667,
1993
+ "eval_accuracy": 0.6842105263157895,
1994
+ "eval_loss": 2.344691038131714,
1995
+ "eval_runtime": 3.4954,
1996
+ "eval_samples_per_second": 5.436,
1997
+ "eval_steps_per_second": 1.43,
1998
+ "step": 2254
1999
+ },
2000
+ {
2001
+ "epoch": 46.0025,
2002
+ "grad_norm": 0.0030405442230403423,
2003
+ "learning_rate": 6.481481481481481e-07,
2004
+ "loss": 0.0001,
2005
+ "step": 2260
2006
+ },
2007
+ {
2008
+ "epoch": 46.00666666666667,
2009
+ "grad_norm": 0.00329338270239532,
2010
+ "learning_rate": 6.018518518518519e-07,
2011
+ "loss": 0.0001,
2012
+ "step": 2270
2013
+ },
2014
+ {
2015
+ "epoch": 46.01083333333333,
2016
+ "grad_norm": 0.00243846676312387,
2017
+ "learning_rate": 5.555555555555555e-07,
2018
+ "loss": 0.0001,
2019
+ "step": 2280
2020
+ },
2021
+ {
2022
+ "epoch": 46.015,
2023
+ "grad_norm": 0.0017111854394897819,
2024
+ "learning_rate": 5.092592592592593e-07,
2025
+ "loss": 0.0001,
2026
+ "step": 2290
2027
+ },
2028
+ {
2029
+ "epoch": 46.01916666666666,
2030
+ "grad_norm": 0.010095887817442417,
2031
+ "learning_rate": 4.6296296296296297e-07,
2032
+ "loss": 0.0001,
2033
+ "step": 2300
2034
+ },
2035
+ {
2036
+ "epoch": 46.02041666666667,
2037
+ "eval_accuracy": 0.6842105263157895,
2038
+ "eval_loss": 2.3414864540100098,
2039
+ "eval_runtime": 3.4719,
2040
+ "eval_samples_per_second": 5.473,
2041
+ "eval_steps_per_second": 1.44,
2042
+ "step": 2303
2043
+ },
2044
+ {
2045
+ "epoch": 47.002916666666664,
2046
+ "grad_norm": 0.004163892008364201,
2047
+ "learning_rate": 4.1666666666666667e-07,
2048
+ "loss": 0.0001,
2049
+ "step": 2310
2050
+ },
2051
+ {
2052
+ "epoch": 47.007083333333334,
2053
+ "grad_norm": 0.002049618400633335,
2054
+ "learning_rate": 3.7037037037037036e-07,
2055
+ "loss": 0.0001,
2056
+ "step": 2320
2057
+ },
2058
+ {
2059
+ "epoch": 47.01125,
2060
+ "grad_norm": 0.003938646987080574,
2061
+ "learning_rate": 3.2407407407407406e-07,
2062
+ "loss": 0.0001,
2063
+ "step": 2330
2064
+ },
2065
+ {
2066
+ "epoch": 47.01541666666667,
2067
+ "grad_norm": 0.004701240919530392,
2068
+ "learning_rate": 2.7777777777777776e-07,
2069
+ "loss": 0.0013,
2070
+ "step": 2340
2071
+ },
2072
+ {
2073
+ "epoch": 47.01958333333334,
2074
+ "grad_norm": 0.002614920726045966,
2075
+ "learning_rate": 2.3148148148148148e-07,
2076
+ "loss": 0.0001,
2077
+ "step": 2350
2078
+ },
2079
+ {
2080
+ "epoch": 47.02041666666667,
2081
+ "eval_accuracy": 0.6842105263157895,
2082
+ "eval_loss": 2.341876745223999,
2083
+ "eval_runtime": 3.52,
2084
+ "eval_samples_per_second": 5.398,
2085
+ "eval_steps_per_second": 1.42,
2086
+ "step": 2352
2087
+ },
2088
+ {
2089
+ "epoch": 48.00333333333333,
2090
+ "grad_norm": 0.0040041073225438595,
2091
+ "learning_rate": 1.8518518518518518e-07,
2092
+ "loss": 0.0014,
2093
+ "step": 2360
2094
+ },
2095
+ {
2096
+ "epoch": 48.0075,
2097
+ "grad_norm": 0.0024590292014181614,
2098
+ "learning_rate": 1.3888888888888888e-07,
2099
+ "loss": 0.0001,
2100
+ "step": 2370
2101
+ },
2102
+ {
2103
+ "epoch": 48.01166666666666,
2104
+ "grad_norm": 0.004839394707232714,
2105
+ "learning_rate": 9.259259259259259e-08,
2106
+ "loss": 0.0002,
2107
+ "step": 2380
2108
+ },
2109
+ {
2110
+ "epoch": 48.01583333333333,
2111
+ "grad_norm": 0.0019098540069535375,
2112
+ "learning_rate": 4.6296296296296295e-08,
2113
+ "loss": 0.0002,
2114
+ "step": 2390
2115
+ },
2116
+ {
2117
+ "epoch": 48.02,
2118
+ "grad_norm": 0.00532747246325016,
2119
+ "learning_rate": 0.0,
2120
+ "loss": 0.0001,
2121
+ "step": 2400
2122
+ },
2123
+ {
2124
+ "epoch": 48.02,
2125
+ "eval_accuracy": 0.6842105263157895,
2126
+ "eval_loss": 2.3470160961151123,
2127
+ "eval_runtime": 4.2841,
2128
+ "eval_samples_per_second": 4.435,
2129
+ "eval_steps_per_second": 1.167,
2130
+ "step": 2400
2131
+ },
2132
+ {
2133
+ "epoch": 48.02,
2134
+ "step": 2400,
2135
+ "total_flos": 4.194308336371473e+19,
2136
+ "train_loss": 0.18858948054393598,
2137
+ "train_runtime": 4106.9782,
2138
+ "train_samples_per_second": 2.337,
2139
+ "train_steps_per_second": 0.584
2140
+ },
2141
+ {
2142
+ "epoch": 48.02,
2143
+ "eval_accuracy": 0.5,
2144
+ "eval_loss": 1.6418968439102173,
2145
+ "eval_runtime": 4.996,
2146
+ "eval_samples_per_second": 4.804,
2147
+ "eval_steps_per_second": 1.201,
2148
+ "step": 2400
2149
+ },
2150
+ {
2151
+ "epoch": 48.02,
2152
+ "eval_accuracy": 0.5,
2153
+ "eval_loss": 1.6418968439102173,
2154
+ "eval_runtime": 4.5735,
2155
+ "eval_samples_per_second": 5.248,
2156
+ "eval_steps_per_second": 1.312,
2157
+ "step": 2400
2158
+ }
2159
+ ],
2160
+ "logging_steps": 10,
2161
+ "max_steps": 2400,
2162
+ "num_input_tokens_seen": 0,
2163
+ "num_train_epochs": 9223372036854775807,
2164
+ "save_steps": 500,
2165
+ "stateful_callbacks": {
2166
+ "TrainerControl": {
2167
+ "args": {
2168
+ "should_epoch_stop": false,
2169
+ "should_evaluate": false,
2170
+ "should_log": false,
2171
+ "should_save": true,
2172
+ "should_training_stop": true
2173
+ },
2174
+ "attributes": {}
2175
+ }
2176
+ },
2177
+ "total_flos": 4.194308336371473e+19,
2178
+ "train_batch_size": 4,
2179
+ "trial_name": null,
2180
+ "trial_params": null
2181
+ }