End of training

Browse files

Files changed (5) hide show

README.md +3 -1
all_results.json +13 -0
eval_results.json +8 -0
train_results.json +8 -0
trainer_state.json +834 -0

README.md CHANGED Viewed

@@ -3,6 +3,8 @@ license: mit
 base_model: unicamp-dl/ptt5-base-t5-vocab
 tags:
 - generated_from_trainer
 model-index:
 - name: t5_base-qg-aap-test
   results: []
@@ -13,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # t5_base-qg-aap-test
-This model is a fine-tuned version of [unicamp-dl/ptt5-base-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-base-t5-vocab) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0278

 base_model: unicamp-dl/ptt5-base-t5-vocab
 tags:
 - generated_from_trainer
+datasets:
+- tiagoblima/preprocessed-du-qg-squadv1_pt
 model-index:
 - name: t5_base-qg-aap-test
   results: []
 # t5_base-qg-aap-test
+This model is a fine-tuned version of [unicamp-dl/ptt5-base-t5-vocab](https://huggingface.co/unicamp-dl/ptt5-base-t5-vocab) on the tiagoblima/preprocessed-du-qg-squadv1_pt dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.0278

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 100.0,
+    "eval_loss": 0.027821063995361328,
+    "eval_runtime": 0.2305,
+    "eval_samples": 8,
+    "eval_samples_per_second": 34.71,
+    "eval_steps_per_second": 4.339,
+    "train_loss": 0.8787790679931641,
+    "train_runtime": 1000.0694,
+    "train_samples": 8,
+    "train_samples_per_second": 0.8,
+    "train_steps_per_second": 0.1
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 100.0,
+    "eval_loss": 0.027821063995361328,
+    "eval_runtime": 0.2305,
+    "eval_samples": 8,
+    "eval_samples_per_second": 34.71,
+    "eval_steps_per_second": 4.339
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 100.0,
+    "train_loss": 0.8787790679931641,
+    "train_runtime": 1000.0694,
+    "train_samples": 8,
+    "train_samples_per_second": 0.8,
+    "train_steps_per_second": 0.1
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,834 @@

+{
+  "best_metric": 0.027821063995361328,
+  "best_model_checkpoint": "/temp/t5_base-qg-aap-test/checkpoint-100",
+  "epoch": 100.0,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_loss": 8.543387413024902,
+      "eval_runtime": 0.22,
+      "eval_samples_per_second": 36.371,
+      "eval_steps_per_second": 4.546,
+      "step": 1
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 7.301304340362549,
+      "eval_runtime": 0.2288,
+      "eval_samples_per_second": 34.962,
+      "eval_steps_per_second": 4.37,
+      "step": 2
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 6.199253559112549,
+      "eval_runtime": 0.2323,
+      "eval_samples_per_second": 34.438,
+      "eval_steps_per_second": 4.305,
+      "step": 3
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 5.28981351852417,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.933,
+      "eval_steps_per_second": 4.242,
+      "step": 4
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 4.522605895996094,
+      "eval_runtime": 0.2354,
+      "eval_samples_per_second": 33.99,
+      "eval_steps_per_second": 4.249,
+      "step": 5
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 3.9202158451080322,
+      "eval_runtime": 0.2368,
+      "eval_samples_per_second": 33.78,
+      "eval_steps_per_second": 4.222,
+      "step": 6
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 3.4436142444610596,
+      "eval_runtime": 0.2346,
+      "eval_samples_per_second": 34.095,
+      "eval_steps_per_second": 4.262,
+      "step": 7
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 3.0407516956329346,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.92,
+      "eval_steps_per_second": 4.24,
+      "step": 8
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 2.7138168811798096,
+      "eval_runtime": 0.232,
+      "eval_samples_per_second": 34.479,
+      "eval_steps_per_second": 4.31,
+      "step": 9
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 2.443582773208618,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.927,
+      "eval_steps_per_second": 4.241,
+      "step": 10
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 2.2130391597747803,
+      "eval_runtime": 0.2341,
+      "eval_samples_per_second": 34.169,
+      "eval_steps_per_second": 4.271,
+      "step": 11
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 2.019005060195923,
+      "eval_runtime": 0.2346,
+      "eval_samples_per_second": 34.099,
+      "eval_steps_per_second": 4.262,
+      "step": 12
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 1.8450862169265747,
+      "eval_runtime": 0.2278,
+      "eval_samples_per_second": 35.113,
+      "eval_steps_per_second": 4.389,
+      "step": 13
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.6746028661727905,
+      "eval_runtime": 0.2332,
+      "eval_samples_per_second": 34.306,
+      "eval_steps_per_second": 4.288,
+      "step": 14
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 1.5047035217285156,
+      "eval_runtime": 0.2344,
+      "eval_samples_per_second": 34.13,
+      "eval_steps_per_second": 4.266,
+      "step": 15
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.3376126289367676,
+      "eval_runtime": 0.235,
+      "eval_samples_per_second": 34.041,
+      "eval_steps_per_second": 4.255,
+      "step": 16
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 1.1800236701965332,
+      "eval_runtime": 0.234,
+      "eval_samples_per_second": 34.182,
+      "eval_steps_per_second": 4.273,
+      "step": 17
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.043411374092102,
+      "eval_runtime": 0.2333,
+      "eval_samples_per_second": 34.295,
+      "eval_steps_per_second": 4.287,
+      "step": 18
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.9442155361175537,
+      "eval_runtime": 0.2311,
+      "eval_samples_per_second": 34.61,
+      "eval_steps_per_second": 4.326,
+      "step": 19
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.8739322423934937,
+      "eval_runtime": 0.2326,
+      "eval_samples_per_second": 34.388,
+      "eval_steps_per_second": 4.299,
+      "step": 20
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.8162761926651001,
+      "eval_runtime": 0.2315,
+      "eval_samples_per_second": 34.559,
+      "eval_steps_per_second": 4.32,
+      "step": 21
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.7628746628761292,
+      "eval_runtime": 0.2355,
+      "eval_samples_per_second": 33.977,
+      "eval_steps_per_second": 4.247,
+      "step": 22
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.7117814421653748,
+      "eval_runtime": 0.2347,
+      "eval_samples_per_second": 34.092,
+      "eval_steps_per_second": 4.262,
+      "step": 23
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.661788821220398,
+      "eval_runtime": 0.2304,
+      "eval_samples_per_second": 34.715,
+      "eval_steps_per_second": 4.339,
+      "step": 24
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.6104191541671753,
+      "eval_runtime": 0.2332,
+      "eval_samples_per_second": 34.307,
+      "eval_steps_per_second": 4.288,
+      "step": 25
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.5596593618392944,
+      "eval_runtime": 0.2354,
+      "eval_samples_per_second": 33.987,
+      "eval_steps_per_second": 4.248,
+      "step": 26
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.5112428665161133,
+      "eval_runtime": 0.2316,
+      "eval_samples_per_second": 34.539,
+      "eval_steps_per_second": 4.317,
+      "step": 27
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.4656863212585449,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.925,
+      "eval_steps_per_second": 4.241,
+      "step": 28
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.4242892861366272,
+      "eval_runtime": 0.2324,
+      "eval_samples_per_second": 34.417,
+      "eval_steps_per_second": 4.302,
+      "step": 29
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.38730064034461975,
+      "eval_runtime": 0.2361,
+      "eval_samples_per_second": 33.884,
+      "eval_steps_per_second": 4.236,
+      "step": 30
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.3529461622238159,
+      "eval_runtime": 0.2273,
+      "eval_samples_per_second": 35.195,
+      "eval_steps_per_second": 4.399,
+      "step": 31
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.3208673894405365,
+      "eval_runtime": 0.2312,
+      "eval_samples_per_second": 34.6,
+      "eval_steps_per_second": 4.325,
+      "step": 32
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.2917502224445343,
+      "eval_runtime": 0.2299,
+      "eval_samples_per_second": 34.802,
+      "eval_steps_per_second": 4.35,
+      "step": 33
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.26672637462615967,
+      "eval_runtime": 0.2245,
+      "eval_samples_per_second": 35.641,
+      "eval_steps_per_second": 4.455,
+      "step": 34
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.24361155927181244,
+      "eval_runtime": 0.2331,
+      "eval_samples_per_second": 34.323,
+      "eval_steps_per_second": 4.29,
+      "step": 35
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.22150522470474243,
+      "eval_runtime": 0.2314,
+      "eval_samples_per_second": 34.566,
+      "eval_steps_per_second": 4.321,
+      "step": 36
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 0.20035764575004578,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.929,
+      "eval_steps_per_second": 4.241,
+      "step": 37
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 0.18083304166793823,
+      "eval_runtime": 0.2305,
+      "eval_samples_per_second": 34.715,
+      "eval_steps_per_second": 4.339,
+      "step": 38
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 0.16373088955879211,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.933,
+      "eval_steps_per_second": 4.242,
+      "step": 39
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.14839813113212585,
+      "eval_runtime": 0.236,
+      "eval_samples_per_second": 33.892,
+      "eval_steps_per_second": 4.236,
+      "step": 40
+    },
+    {
+      "epoch": 41.0,
+      "eval_loss": 0.1357194185256958,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.932,
+      "eval_steps_per_second": 4.242,
+      "step": 41
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 0.1251770257949829,
+      "eval_runtime": 0.2246,
+      "eval_samples_per_second": 35.621,
+      "eval_steps_per_second": 4.453,
+      "step": 42
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 0.11590107530355453,
+      "eval_runtime": 0.2355,
+      "eval_samples_per_second": 33.971,
+      "eval_steps_per_second": 4.246,
+      "step": 43
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 0.10785257816314697,
+      "eval_runtime": 0.2288,
+      "eval_samples_per_second": 34.96,
+      "eval_steps_per_second": 4.37,
+      "step": 44
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 0.09967806190252304,
+      "eval_runtime": 0.2309,
+      "eval_samples_per_second": 34.652,
+      "eval_steps_per_second": 4.332,
+      "step": 45
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 0.0922195091843605,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.952,
+      "eval_steps_per_second": 4.244,
+      "step": 46
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 0.08580458164215088,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.959,
+      "eval_steps_per_second": 4.245,
+      "step": 47
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.08024830371141434,
+      "eval_runtime": 0.2344,
+      "eval_samples_per_second": 34.129,
+      "eval_steps_per_second": 4.266,
+      "step": 48
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 0.07487977296113968,
+      "eval_runtime": 0.2357,
+      "eval_samples_per_second": 33.936,
+      "eval_steps_per_second": 4.242,
+      "step": 49
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.07032416760921478,
+      "eval_runtime": 0.231,
+      "eval_samples_per_second": 34.629,
+      "eval_steps_per_second": 4.329,
+      "step": 50
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 0.06604083627462387,
+      "eval_runtime": 0.2355,
+      "eval_samples_per_second": 33.971,
+      "eval_steps_per_second": 4.246,
+      "step": 51
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 0.06256596744060516,
+      "eval_runtime": 0.2338,
+      "eval_samples_per_second": 34.216,
+      "eval_steps_per_second": 4.277,
+      "step": 52
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 0.0596306137740612,
+      "eval_runtime": 0.2355,
+      "eval_samples_per_second": 33.976,
+      "eval_steps_per_second": 4.247,
+      "step": 53
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 0.05728648975491524,
+      "eval_runtime": 0.2313,
+      "eval_samples_per_second": 34.582,
+      "eval_steps_per_second": 4.323,
+      "step": 54
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 0.05549569055438042,
+      "eval_runtime": 0.2351,
+      "eval_samples_per_second": 34.022,
+      "eval_steps_per_second": 4.253,
+      "step": 55
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 0.0538727343082428,
+      "eval_runtime": 0.2351,
+      "eval_samples_per_second": 34.035,
+      "eval_steps_per_second": 4.254,
+      "step": 56
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 0.05207115411758423,
+      "eval_runtime": 0.2247,
+      "eval_samples_per_second": 35.607,
+      "eval_steps_per_second": 4.451,
+      "step": 57
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 0.05064238980412483,
+      "eval_runtime": 0.2241,
+      "eval_samples_per_second": 35.694,
+      "eval_steps_per_second": 4.462,
+      "step": 58
+    },
+    {
+      "epoch": 59.0,
+      "eval_loss": 0.0496056042611599,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.922,
+      "eval_steps_per_second": 4.24,
+      "step": 59
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.04849918186664581,
+      "eval_runtime": 0.234,
+      "eval_samples_per_second": 34.194,
+      "eval_steps_per_second": 4.274,
+      "step": 60
+    },
+    {
+      "epoch": 61.0,
+      "eval_loss": 0.04720243811607361,
+      "eval_runtime": 0.2354,
+      "eval_samples_per_second": 33.992,
+      "eval_steps_per_second": 4.249,
+      "step": 61
+    },
+    {
+      "epoch": 62.0,
+      "eval_loss": 0.04599544033408165,
+      "eval_runtime": 0.2346,
+      "eval_samples_per_second": 34.103,
+      "eval_steps_per_second": 4.263,
+      "step": 62
+    },
+    {
+      "epoch": 63.0,
+      "eval_loss": 0.04451025277376175,
+      "eval_runtime": 0.2405,
+      "eval_samples_per_second": 33.268,
+      "eval_steps_per_second": 4.159,
+      "step": 63
+    },
+    {
+      "epoch": 64.0,
+      "eval_loss": 0.04322642832994461,
+      "eval_runtime": 0.2321,
+      "eval_samples_per_second": 34.47,
+      "eval_steps_per_second": 4.309,
+      "step": 64
+    },
+    {
+      "epoch": 65.0,
+      "eval_loss": 0.04210076108574867,
+      "eval_runtime": 0.2361,
+      "eval_samples_per_second": 33.885,
+      "eval_steps_per_second": 4.236,
+      "step": 65
+    },
+    {
+      "epoch": 66.0,
+      "eval_loss": 0.04086441919207573,
+      "eval_runtime": 0.2341,
+      "eval_samples_per_second": 34.177,
+      "eval_steps_per_second": 4.272,
+      "step": 66
+    },
+    {
+      "epoch": 67.0,
+      "eval_loss": 0.03964550420641899,
+      "eval_runtime": 0.2287,
+      "eval_samples_per_second": 34.977,
+      "eval_steps_per_second": 4.372,
+      "step": 67
+    },
+    {
+      "epoch": 68.0,
+      "eval_loss": 0.03853166475892067,
+      "eval_runtime": 0.2351,
+      "eval_samples_per_second": 34.031,
+      "eval_steps_per_second": 4.254,
+      "step": 68
+    },
+    {
+      "epoch": 69.0,
+      "eval_loss": 0.03747276961803436,
+      "eval_runtime": 0.2354,
+      "eval_samples_per_second": 33.984,
+      "eval_steps_per_second": 4.248,
+      "step": 69
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 0.0365348644554615,
+      "eval_runtime": 0.2257,
+      "eval_samples_per_second": 35.448,
+      "eval_steps_per_second": 4.431,
+      "step": 70
+    },
+    {
+      "epoch": 71.0,
+      "eval_loss": 0.035752058029174805,
+      "eval_runtime": 0.2347,
+      "eval_samples_per_second": 34.085,
+      "eval_steps_per_second": 4.261,
+      "step": 71
+    },
+    {
+      "epoch": 72.0,
+      "eval_loss": 0.03502313047647476,
+      "eval_runtime": 0.2313,
+      "eval_samples_per_second": 34.586,
+      "eval_steps_per_second": 4.323,
+      "step": 72
+    },
+    {
+      "epoch": 73.0,
+      "eval_loss": 0.03442569449543953,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.962,
+      "eval_steps_per_second": 4.245,
+      "step": 73
+    },
+    {
+      "epoch": 74.0,
+      "eval_loss": 0.03383530303835869,
+      "eval_runtime": 0.2258,
+      "eval_samples_per_second": 35.436,
+      "eval_steps_per_second": 4.429,
+      "step": 74
+    },
+    {
+      "epoch": 75.0,
+      "eval_loss": 0.0333658903837204,
+      "eval_runtime": 0.2352,
+      "eval_samples_per_second": 34.018,
+      "eval_steps_per_second": 4.252,
+      "step": 75
+    },
+    {
+      "epoch": 76.0,
+      "eval_loss": 0.03294898569583893,
+      "eval_runtime": 0.2302,
+      "eval_samples_per_second": 34.754,
+      "eval_steps_per_second": 4.344,
+      "step": 76
+    },
+    {
+      "epoch": 77.0,
+      "eval_loss": 0.03257429972290993,
+      "eval_runtime": 0.2347,
+      "eval_samples_per_second": 34.09,
+      "eval_steps_per_second": 4.261,
+      "step": 77
+    },
+    {
+      "epoch": 78.0,
+      "eval_loss": 0.032144706696271896,
+      "eval_runtime": 0.2353,
+      "eval_samples_per_second": 33.996,
+      "eval_steps_per_second": 4.25,
+      "step": 78
+    },
+    {
+      "epoch": 79.0,
+      "eval_loss": 0.03174722567200661,
+      "eval_runtime": 0.2359,
+      "eval_samples_per_second": 33.913,
+      "eval_steps_per_second": 4.239,
+      "step": 79
+    },
+    {
+      "epoch": 80.0,
+      "eval_loss": 0.031351201236248016,
+      "eval_runtime": 0.2302,
+      "eval_samples_per_second": 34.75,
+      "eval_steps_per_second": 4.344,
+      "step": 80
+    },
+    {
+      "epoch": 81.0,
+      "eval_loss": 0.03098256327211857,
+      "eval_runtime": 0.235,
+      "eval_samples_per_second": 34.037,
+      "eval_steps_per_second": 4.255,
+      "step": 81
+    },
+    {
+      "epoch": 82.0,
+      "eval_loss": 0.030596623197197914,
+      "eval_runtime": 0.2313,
+      "eval_samples_per_second": 34.582,
+      "eval_steps_per_second": 4.323,
+      "step": 82
+    },
+    {
+      "epoch": 83.0,
+      "eval_loss": 0.0302561167627573,
+      "eval_runtime": 0.2311,
+      "eval_samples_per_second": 34.612,
+      "eval_steps_per_second": 4.326,
+      "step": 83
+    },
+    {
+      "epoch": 84.0,
+      "eval_loss": 0.02994276024401188,
+      "eval_runtime": 0.2345,
+      "eval_samples_per_second": 34.114,
+      "eval_steps_per_second": 4.264,
+      "step": 84
+    },
+    {
+      "epoch": 85.0,
+      "eval_loss": 0.029655389487743378,
+      "eval_runtime": 0.2317,
+      "eval_samples_per_second": 34.52,
+      "eval_steps_per_second": 4.315,
+      "step": 85
+    },
+    {
+      "epoch": 86.0,
+      "eval_loss": 0.029432008042931557,
+      "eval_runtime": 0.2323,
+      "eval_samples_per_second": 34.432,
+      "eval_steps_per_second": 4.304,
+      "step": 86
+    },
+    {
+      "epoch": 87.0,
+      "eval_loss": 0.02922823093831539,
+      "eval_runtime": 0.2355,
+      "eval_samples_per_second": 33.969,
+      "eval_steps_per_second": 4.246,
+      "step": 87
+    },
+    {
+      "epoch": 88.0,
+      "eval_loss": 0.02902672439813614,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.956,
+      "eval_steps_per_second": 4.244,
+      "step": 88
+    },
+    {
+      "epoch": 89.0,
+      "eval_loss": 0.02884937822818756,
+      "eval_runtime": 0.2358,
+      "eval_samples_per_second": 33.922,
+      "eval_steps_per_second": 4.24,
+      "step": 89
+    },
+    {
+      "epoch": 90.0,
+      "eval_loss": 0.02867262251675129,
+      "eval_runtime": 0.2321,
+      "eval_samples_per_second": 34.471,
+      "eval_steps_per_second": 4.309,
+      "step": 90
+    },
+    {
+      "epoch": 91.0,
+      "eval_loss": 0.02851748839020729,
+      "eval_runtime": 0.236,
+      "eval_samples_per_second": 33.898,
+      "eval_steps_per_second": 4.237,
+      "step": 91
+    },
+    {
+      "epoch": 92.0,
+      "eval_loss": 0.02836400270462036,
+      "eval_runtime": 0.2256,
+      "eval_samples_per_second": 35.466,
+      "eval_steps_per_second": 4.433,
+      "step": 92
+    },
+    {
+      "epoch": 93.0,
+      "eval_loss": 0.028240736573934555,
+      "eval_runtime": 0.2355,
+      "eval_samples_per_second": 33.963,
+      "eval_steps_per_second": 4.245,
+      "step": 93
+    },
+    {
+      "epoch": 94.0,
+      "eval_loss": 0.02814488857984543,
+      "eval_runtime": 0.231,
+      "eval_samples_per_second": 34.627,
+      "eval_steps_per_second": 4.328,
+      "step": 94
+    },
+    {
+      "epoch": 95.0,
+      "eval_loss": 0.0280709657818079,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.953,
+      "eval_steps_per_second": 4.244,
+      "step": 95
+    },
+    {
+      "epoch": 96.0,
+      "eval_loss": 0.02801009640097618,
+      "eval_runtime": 0.2315,
+      "eval_samples_per_second": 34.556,
+      "eval_steps_per_second": 4.319,
+      "step": 96
+    },
+    {
+      "epoch": 97.0,
+      "eval_loss": 0.02794581837952137,
+      "eval_runtime": 0.2362,
+      "eval_samples_per_second": 33.87,
+      "eval_steps_per_second": 4.234,
+      "step": 97
+    },
+    {
+      "epoch": 98.0,
+      "eval_loss": 0.027881627902388573,
+      "eval_runtime": 0.2362,
+      "eval_samples_per_second": 33.875,
+      "eval_steps_per_second": 4.234,
+      "step": 98
+    },
+    {
+      "epoch": 99.0,
+      "eval_loss": 0.027840854600071907,
+      "eval_runtime": 0.2356,
+      "eval_samples_per_second": 33.95,
+      "eval_steps_per_second": 4.244,
+      "step": 99
+    },
+    {
+      "epoch": 100.0,
+      "learning_rate": 0.0,
+      "loss": 0.8788,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 0.027821063995361328,
+      "eval_runtime": 0.2225,
+      "eval_samples_per_second": 35.947,
+      "eval_steps_per_second": 4.493,
+      "step": 100
+    },
+    {
+      "epoch": 100.0,
+      "step": 100,
+      "total_flos": 487166312448000.0,
+      "train_loss": 0.8787790679931641,
+      "train_runtime": 1000.0694,
+      "train_samples_per_second": 0.8,
+      "train_steps_per_second": 0.1
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 100,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "total_flos": 487166312448000.0,
+  "trial_name": null,
+  "trial_params": null
+}