End of training

Browse files

Files changed (6) hide show

README.md +12 -12
adapter_config.json +0 -2
adapter_model.safetensors +1 -1
runs/Jun14_16-22-36_e264b3d8e2e7/events.out.tfevents.1718382165.e264b3d8e2e7.88813.0 +3 -0
trainer_state.json +206 -206
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [openai/whisper-small](https://huggingface.co/openai/whisper-small) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.0162
 ## Model description
@@ -49,21 +49,21 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
-| 6.1628        | 1.0   | 137  | 4.2124          |
-| 2.7143        | 2.0   | 274  | 2.2921          |
-| 1.1388        | 3.0   | 411  | 0.8535          |
-| 0.4082        | 4.0   | 548  | 0.2754          |
-| 0.2126        | 5.0   | 685  | 0.1487          |
-| 0.1209        | 6.0   | 822  | 0.1083          |
-| 0.1082        | 7.0   | 959  | 0.0546          |
-| 0.0435        | 8.0   | 1096 | 0.0327          |
-| 0.0309        | 9.0   | 1233 | 0.0201          |
-| 0.0213        | 10.0  | 1370 | 0.0162          |
 ### Framework versions
-- PEFT 0.11.1
 - Transformers 4.41.2
 - Pytorch 2.3.0+cu121
 - Datasets 2.20.0

 This model is a fine-tuned version of [openai/whisper-small](https://huggingface.co/openai/whisper-small) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.0016
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss |
 |:-------------:|:-----:|:----:|:---------------:|
+| 0.1234        | 1.0   | 137  | 0.0824          |
+| 0.0749        | 2.0   | 274  | 0.0623          |
+| 0.0378        | 3.0   | 411  | 0.0587          |
+| 0.049         | 4.0   | 548  | 0.0214          |
+| 0.0213        | 5.0   | 685  | 0.0157          |
+| 0.01          | 6.0   | 822  | 0.0097          |
+| 0.0077        | 7.0   | 959  | 0.0052          |
+| 0.0059        | 8.0   | 1096 | 0.0025          |
+| 0.0021        | 9.0   | 1233 | 0.0017          |
+| 0.0019        | 10.0  | 1370 | 0.0016          |
 ### Framework versions
+- PEFT 0.8.0
 - Transformers 4.41.2
 - Pytorch 2.3.0+cu121
 - Datasets 2.20.0

adapter_config.json CHANGED Viewed

@@ -9,7 +9,6 @@
   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
-  "layer_replication": null,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
@@ -27,6 +26,5 @@
     "q_proj"
   ],
   "task_type": null,
-  "use_dora": false,
   "use_rslora": false
 }

   "fan_in_fan_out": false,
   "inference_mode": true,
   "init_lora_weights": true,
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
     "q_proj"
   ],
   "task_type": null,
   "use_rslora": false
 }

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f671fda1f01ac0e2456c682a47adfefd9f97c4d68b58b26fd888e95c8aa33246
 size 14176064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3be42fda9d1cbc9320d4744425ed1f9cd861210aa307949b916e7665a179509f
 size 14176064

runs/Jun14_16-22-36_e264b3d8e2e7/events.out.tfevents.1718382165.e264b3d8e2e7.88813.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34aaaadb281dabece52749402846997990f195a528b48176fdf766b387cbb27a
+size 20613

trainer_state.json CHANGED Viewed

@@ -10,470 +10,470 @@
   "log_history": [
     {
       "epoch": 0.18248175182481752,
-      "grad_norm": 3.480720043182373,
-      "learning_rate": 0.00044,
-      "loss": 4.161,
       "step": 25
     },
     {
       "epoch": 0.36496350364963503,
-      "grad_norm": 1.4096753597259521,
-      "learning_rate": 0.00094,
-      "loss": 1.0537,
       "step": 50
     },
     {
       "epoch": 0.5474452554744526,
-      "grad_norm": 2.793295383453369,
-      "learning_rate": 0.0009833333333333332,
-      "loss": 0.4546,
       "step": 75
     },
     {
       "epoch": 0.7299270072992701,
-      "grad_norm": 0.4571402370929718,
-      "learning_rate": 0.0009643939393939394,
-      "loss": 0.1519,
       "step": 100
     },
     {
       "epoch": 0.9124087591240876,
-      "grad_norm": 1.6245888471603394,
-      "learning_rate": 0.0009462121212121212,
-      "loss": 6.1628,
       "step": 125
     },
     {
       "epoch": 1.0,
-      "eval_loss": 4.212439060211182,
-      "eval_runtime": 192.7878,
-      "eval_samples_per_second": 4.243,
-      "eval_steps_per_second": 0.711,
       "step": 137
     },
     {
       "epoch": 1.094890510948905,
-      "grad_norm": 0.5284515023231506,
-      "learning_rate": 0.0009272727272727273,
-      "loss": 4.8818,
       "step": 150
     },
     {
       "epoch": 1.2773722627737225,
-      "grad_norm": 0.5723586678504944,
-      "learning_rate": 0.0009083333333333334,
-      "loss": 3.4981,
       "step": 175
     },
     {
       "epoch": 1.4598540145985401,
-      "grad_norm": 0.4482167661190033,
-      "learning_rate": 0.0008893939393939394,
-      "loss": 3.3316,
       "step": 200
     },
     {
       "epoch": 1.6423357664233578,
-      "grad_norm": 0.5379208922386169,
-      "learning_rate": 0.0008704545454545455,
-      "loss": 3.1343,
       "step": 225
     },
     {
       "epoch": 1.8248175182481752,
-      "grad_norm": 2.225010395050049,
-      "learning_rate": 0.0008515151515151516,
-      "loss": 2.7143,
       "step": 250
     },
     {
       "epoch": 2.0,
-      "eval_loss": 2.292099714279175,
-      "eval_runtime": 196.2028,
-      "eval_samples_per_second": 4.169,
-      "eval_steps_per_second": 0.698,
       "step": 274
     },
     {
       "epoch": 2.0072992700729926,
-      "grad_norm": 0.8666009902954102,
-      "learning_rate": 0.0008325757575757576,
-      "loss": 2.438,
       "step": 275
     },
     {
       "epoch": 2.18978102189781,
-      "grad_norm": 1.0309600830078125,
-      "learning_rate": 0.0008136363636363636,
-      "loss": 2.1385,
       "step": 300
     },
     {
       "epoch": 2.372262773722628,
-      "grad_norm": 3.2585089206695557,
-      "learning_rate": 0.0007946969696969696,
-      "loss": 1.9635,
       "step": 325
     },
     {
       "epoch": 2.554744525547445,
-      "grad_norm": 1.6428176164627075,
-      "learning_rate": 0.0007757575757575758,
-      "loss": 1.7211,
       "step": 350
     },
     {
       "epoch": 2.7372262773722627,
-      "grad_norm": 2.730184316635132,
-      "learning_rate": 0.0007568181818181819,
-      "loss": 1.3848,
       "step": 375
     },
     {
       "epoch": 2.9197080291970803,
-      "grad_norm": 2.9515888690948486,
-      "learning_rate": 0.0007378787878787879,
-      "loss": 1.1388,
       "step": 400
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.8534712195396423,
-      "eval_runtime": 195.2055,
-      "eval_samples_per_second": 4.19,
-      "eval_steps_per_second": 0.702,
       "step": 411
     },
     {
       "epoch": 3.102189781021898,
-      "grad_norm": 3.407141923904419,
-      "learning_rate": 0.0007189393939393941,
-      "loss": 0.8781,
       "step": 425
     },
     {
       "epoch": 3.2846715328467155,
-      "grad_norm": 2.300389528274536,
-      "learning_rate": 0.0007,
-      "loss": 0.7192,
       "step": 450
     },
     {
       "epoch": 3.4671532846715327,
-      "grad_norm": 1.6451431512832642,
-      "learning_rate": 0.000681060606060606,
-      "loss": 0.6457,
       "step": 475
     },
     {
       "epoch": 3.6496350364963503,
-      "grad_norm": 2.6580169200897217,
-      "learning_rate": 0.0006621212121212121,
-      "loss": 0.4801,
       "step": 500
     },
     {
       "epoch": 3.832116788321168,
-      "grad_norm": 2.7876107692718506,
-      "learning_rate": 0.0006431818181818182,
-      "loss": 0.4082,
       "step": 525
     },
     {
       "epoch": 4.0,
-      "eval_loss": 0.27536100149154663,
-      "eval_runtime": 193.3916,
-      "eval_samples_per_second": 4.23,
-      "eval_steps_per_second": 0.708,
       "step": 548
     },
     {
       "epoch": 4.014598540145985,
-      "grad_norm": 0.8029674887657166,
-      "learning_rate": 0.0006242424242424243,
-      "loss": 0.335,
       "step": 550
     },
     {
       "epoch": 4.197080291970803,
-      "grad_norm": 1.664339303970337,
-      "learning_rate": 0.0006053030303030303,
-      "loss": 0.2257,
       "step": 575
     },
     {
       "epoch": 4.37956204379562,
-      "grad_norm": 1.4657175540924072,
-      "learning_rate": 0.0005863636363636363,
-      "loss": 0.2869,
       "step": 600
     },
     {
       "epoch": 4.562043795620438,
-      "grad_norm": 1.3024441003799438,
-      "learning_rate": 0.0005674242424242424,
-      "loss": 0.2747,
       "step": 625
     },
     {
       "epoch": 4.744525547445256,
-      "grad_norm": 0.9062749743461609,
-      "learning_rate": 0.0005484848484848485,
-      "loss": 0.1877,
       "step": 650
     },
     {
       "epoch": 4.927007299270073,
-      "grad_norm": 0.833874523639679,
-      "learning_rate": 0.0005295454545454545,
-      "loss": 0.2126,
       "step": 675
     },
     {
       "epoch": 5.0,
-      "eval_loss": 0.14872248470783234,
-      "eval_runtime": 197.8887,
-      "eval_samples_per_second": 4.134,
-      "eval_steps_per_second": 0.692,
       "step": 685
     },
     {
       "epoch": 5.109489051094891,
-      "grad_norm": 0.9996502995491028,
-      "learning_rate": 0.0005106060606060607,
-      "loss": 0.1559,
       "step": 700
     },
     {
       "epoch": 5.291970802919708,
-      "grad_norm": 0.6231667399406433,
-      "learning_rate": 0.0004916666666666666,
-      "loss": 0.1486,
       "step": 725
     },
     {
       "epoch": 5.474452554744525,
-      "grad_norm": 0.5377147197723389,
-      "learning_rate": 0.0004727272727272727,
-      "loss": 0.1135,
       "step": 750
     },
     {
       "epoch": 5.656934306569343,
-      "grad_norm": 0.24335509538650513,
-      "learning_rate": 0.0004537878787878788,
-      "loss": 0.137,
       "step": 775
     },
     {
       "epoch": 5.839416058394161,
-      "grad_norm": 1.0016026496887207,
-      "learning_rate": 0.00043484848484848487,
-      "loss": 0.1209,
       "step": 800
     },
     {
       "epoch": 6.0,
-      "eval_loss": 0.10833244770765305,
-      "eval_runtime": 195.5746,
-      "eval_samples_per_second": 4.183,
-      "eval_steps_per_second": 0.701,
       "step": 822
     },
     {
       "epoch": 6.021897810218978,
-      "grad_norm": 1.0397971868515015,
-      "learning_rate": 0.0004159090909090909,
-      "loss": 0.1496,
       "step": 825
     },
     {
       "epoch": 6.204379562043796,
-      "grad_norm": 1.5983672142028809,
-      "learning_rate": 0.00039696969696969696,
-      "loss": 0.1017,
       "step": 850
     },
     {
       "epoch": 6.386861313868613,
-      "grad_norm": 0.4575522840023041,
-      "learning_rate": 0.00037803030303030306,
-      "loss": 0.0895,
       "step": 875
     },
     {
       "epoch": 6.569343065693431,
-      "grad_norm": 0.6511216163635254,
-      "learning_rate": 0.00035909090909090906,
-      "loss": 0.0666,
       "step": 900
     },
     {
       "epoch": 6.751824817518248,
-      "grad_norm": 1.270704984664917,
-      "learning_rate": 0.00034015151515151516,
-      "loss": 0.0831,
       "step": 925
     },
     {
       "epoch": 6.934306569343065,
-      "grad_norm": 0.3851993978023529,
-      "learning_rate": 0.00032121212121212126,
-      "loss": 0.1082,
       "step": 950
     },
     {
       "epoch": 7.0,
-      "eval_loss": 0.05455175042152405,
-      "eval_runtime": 200.4227,
-      "eval_samples_per_second": 4.081,
-      "eval_steps_per_second": 0.684,
       "step": 959
     },
     {
       "epoch": 7.116788321167883,
-      "grad_norm": 0.2679482698440552,
-      "learning_rate": 0.00030227272727272725,
-      "loss": 0.0586,
       "step": 975
     },
     {
       "epoch": 7.299270072992701,
-      "grad_norm": 0.44625118374824524,
-      "learning_rate": 0.00028333333333333335,
-      "loss": 0.0558,
       "step": 1000
     },
     {
       "epoch": 7.481751824817518,
-      "grad_norm": 0.4908747375011444,
-      "learning_rate": 0.0002643939393939394,
-      "loss": 0.0711,
       "step": 1025
     },
     {
       "epoch": 7.664233576642336,
-      "grad_norm": 1.205810785293579,
-      "learning_rate": 0.00024545454545454545,
-      "loss": 0.0573,
       "step": 1050
     },
     {
       "epoch": 7.846715328467154,
-      "grad_norm": 0.07598499953746796,
-      "learning_rate": 0.0002265151515151515,
-      "loss": 0.0435,
       "step": 1075
     },
     {
       "epoch": 8.0,
-      "eval_loss": 0.03274066373705864,
-      "eval_runtime": 202.8108,
-      "eval_samples_per_second": 4.033,
-      "eval_steps_per_second": 0.676,
       "step": 1096
     },
     {
       "epoch": 8.02919708029197,
-      "grad_norm": 0.4313261806964874,
-      "learning_rate": 0.0002075757575757576,
-      "loss": 0.0452,
       "step": 1100
     },
     {
       "epoch": 8.211678832116789,
-      "grad_norm": 0.25643861293792725,
-      "learning_rate": 0.00018863636363636364,
-      "loss": 0.0446,
       "step": 1125
     },
     {
       "epoch": 8.394160583941606,
-      "grad_norm": 0.35274460911750793,
-      "learning_rate": 0.00016969696969696972,
-      "loss": 0.0423,
       "step": 1150
     },
     {
       "epoch": 8.576642335766424,
-      "grad_norm": 0.08310751616954803,
-      "learning_rate": 0.00015075757575757576,
-      "loss": 0.0272,
       "step": 1175
     },
     {
       "epoch": 8.75912408759124,
-      "grad_norm": 1.2015907764434814,
-      "learning_rate": 0.0001318181818181818,
-      "loss": 0.0274,
       "step": 1200
     },
     {
       "epoch": 8.941605839416058,
-      "grad_norm": 0.3477329611778259,
-      "learning_rate": 0.00011287878787878789,
-      "loss": 0.0309,
       "step": 1225
     },
     {
       "epoch": 9.0,
-      "eval_loss": 0.02009008266031742,
-      "eval_runtime": 200.6591,
-      "eval_samples_per_second": 4.077,
-      "eval_steps_per_second": 0.683,
       "step": 1233
     },
     {
       "epoch": 9.124087591240876,
-      "grad_norm": 0.37782296538352966,
-      "learning_rate": 9.393939393939393e-05,
-      "loss": 0.027,
       "step": 1250
     },
     {
       "epoch": 9.306569343065693,
-      "grad_norm": 0.07126203179359436,
-      "learning_rate": 7.5e-05,
-      "loss": 0.0148,
       "step": 1275
     },
     {
       "epoch": 9.489051094890511,
-      "grad_norm": 0.0341663658618927,
-      "learning_rate": 5.606060606060606e-05,
-      "loss": 0.0187,
       "step": 1300
     },
     {
       "epoch": 9.671532846715328,
-      "grad_norm": 0.2040582299232483,
-      "learning_rate": 3.712121212121213e-05,
-      "loss": 0.0234,
       "step": 1325
     },
     {
       "epoch": 9.854014598540147,
-      "grad_norm": 0.3192838430404663,
-      "learning_rate": 1.8181818181818182e-05,
-      "loss": 0.0213,
       "step": 1350
     },
     {
       "epoch": 10.0,
-      "eval_loss": 0.016194986179471016,
-      "eval_runtime": 199.5522,
-      "eval_samples_per_second": 4.099,
-      "eval_steps_per_second": 0.687,
       "step": 1370
     },
     {
       "epoch": 10.0,
       "step": 1370,
       "total_flos": 2.4023145037824e+18,
-      "train_loss": 0.8555449325890436,
-      "train_runtime": 4862.7206,
-      "train_samples_per_second": 1.682,
-      "train_steps_per_second": 0.282
     }
   ],
   "logging_steps": 25,

   "log_history": [
     {
       "epoch": 0.18248175182481752,
+      "grad_norm": 2.397657632827759,
+      "learning_rate": 0.00048,
+      "loss": 4.0044,
       "step": 25
     },
     {
       "epoch": 0.36496350364963503,
+      "grad_norm": 0.8800250291824341,
+      "learning_rate": 0.00098,
+      "loss": 0.9921,
       "step": 50
     },
     {
       "epoch": 0.5474452554744526,
+      "grad_norm": 1.0678032636642456,
+      "learning_rate": 0.0009825757575757576,
+      "loss": 0.4551,
       "step": 75
     },
     {
       "epoch": 0.7299270072992701,
+      "grad_norm": 8.535021781921387,
+      "learning_rate": 0.0009636363636363637,
+      "loss": 0.148,
       "step": 100
     },
     {
       "epoch": 0.9124087591240876,
+      "grad_norm": 0.5009177327156067,
+      "learning_rate": 0.0009446969696969697,
+      "loss": 0.1234,
       "step": 125
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.08237148076295853,
+      "eval_runtime": 191.2601,
+      "eval_samples_per_second": 4.277,
+      "eval_steps_per_second": 0.716,
       "step": 137
     },
     {
       "epoch": 1.094890510948905,
+      "grad_norm": 0.6111318469047546,
+      "learning_rate": 0.0009257575757575758,
+      "loss": 0.1034,
       "step": 150
     },
     {
       "epoch": 1.2773722627737225,
+      "grad_norm": 0.47145724296569824,
+      "learning_rate": 0.0009068181818181819,
+      "loss": 0.0704,
       "step": 175
     },
     {
       "epoch": 1.4598540145985401,
+      "grad_norm": 0.3196675777435303,
+      "learning_rate": 0.000887878787878788,
+      "loss": 0.0841,
       "step": 200
     },
     {
       "epoch": 1.6423357664233578,
+      "grad_norm": 1.194128394126892,
+      "learning_rate": 0.0008689393939393939,
+      "loss": 0.1131,
       "step": 225
     },
     {
       "epoch": 1.8248175182481752,
+      "grad_norm": 0.5795499086380005,
+      "learning_rate": 0.00085,
+      "loss": 0.0749,
       "step": 250
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.06233128905296326,
+      "eval_runtime": 192.0678,
+      "eval_samples_per_second": 4.259,
+      "eval_steps_per_second": 0.713,
       "step": 274
     },
     {
       "epoch": 2.0072992700729926,
+      "grad_norm": 1.2165534496307373,
+      "learning_rate": 0.0008310606060606061,
+      "loss": 0.1015,
       "step": 275
     },
     {
       "epoch": 2.18978102189781,
+      "grad_norm": 0.4674736261367798,
+      "learning_rate": 0.0008121212121212122,
+      "loss": 0.0487,
       "step": 300
     },
     {
       "epoch": 2.372262773722628,
+      "grad_norm": 0.28624579310417175,
+      "learning_rate": 0.0007931818181818182,
+      "loss": 0.0979,
       "step": 325
     },
     {
       "epoch": 2.554744525547445,
+      "grad_norm": 0.5534139275550842,
+      "learning_rate": 0.0007742424242424244,
+      "loss": 0.0503,
       "step": 350
     },
     {
       "epoch": 2.7372262773722627,
+      "grad_norm": 0.959182620048523,
+      "learning_rate": 0.0007553030303030303,
+      "loss": 0.0513,
       "step": 375
     },
     {
       "epoch": 2.9197080291970803,
+      "grad_norm": 0.3576785624027252,
+      "learning_rate": 0.0007363636363636363,
+      "loss": 0.0378,
       "step": 400
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.05872492492198944,
+      "eval_runtime": 187.3215,
+      "eval_samples_per_second": 4.367,
+      "eval_steps_per_second": 0.731,
       "step": 411
     },
     {
       "epoch": 3.102189781021898,
+      "grad_norm": 0.5636082291603088,
+      "learning_rate": 0.0007174242424242424,
+      "loss": 0.0642,
       "step": 425
     },
     {
       "epoch": 3.2846715328467155,
+      "grad_norm": 0.3895982503890991,
+      "learning_rate": 0.0006984848484848485,
+      "loss": 0.0308,
       "step": 450
     },
     {
       "epoch": 3.4671532846715327,
+      "grad_norm": 0.28794267773628235,
+      "learning_rate": 0.0006795454545454546,
+      "loss": 0.0374,
       "step": 475
     },
     {
       "epoch": 3.6496350364963503,
+      "grad_norm": 0.526278018951416,
+      "learning_rate": 0.0006606060606060606,
+      "loss": 0.0331,
       "step": 500
     },
     {
       "epoch": 3.832116788321168,
+      "grad_norm": 0.30551332235336304,
+      "learning_rate": 0.0006416666666666667,
+      "loss": 0.049,
       "step": 525
     },
     {
       "epoch": 4.0,
+      "eval_loss": 0.021386895328760147,
+      "eval_runtime": 189.2731,
+      "eval_samples_per_second": 4.322,
+      "eval_steps_per_second": 0.724,
       "step": 548
     },
     {
       "epoch": 4.014598540145985,
+      "grad_norm": 0.11820922046899796,
+      "learning_rate": 0.0006227272727272727,
+      "loss": 0.0299,
       "step": 550
     },
     {
       "epoch": 4.197080291970803,
+      "grad_norm": 0.2699453830718994,
+      "learning_rate": 0.0006037878787878788,
+      "loss": 0.025,
       "step": 575
     },
     {
       "epoch": 4.37956204379562,
+      "grad_norm": 0.18448378145694733,
+      "learning_rate": 0.0005848484848484848,
+      "loss": 0.0242,
       "step": 600
     },
     {
       "epoch": 4.562043795620438,
+      "grad_norm": 0.09863670915365219,
+      "learning_rate": 0.0005659090909090909,
+      "loss": 0.0188,
       "step": 625
     },
     {
       "epoch": 4.744525547445256,
+      "grad_norm": 0.45231935381889343,
+      "learning_rate": 0.000546969696969697,
+      "loss": 0.0301,
       "step": 650
     },
     {
       "epoch": 4.927007299270073,
+      "grad_norm": 0.33688464760780334,
+      "learning_rate": 0.0005280303030303031,
+      "loss": 0.0213,
       "step": 675
     },
     {
       "epoch": 5.0,
+      "eval_loss": 0.01573045551776886,
+      "eval_runtime": 193.8274,
+      "eval_samples_per_second": 4.22,
+      "eval_steps_per_second": 0.707,
       "step": 685
     },
     {
       "epoch": 5.109489051094891,
+      "grad_norm": 0.13048557937145233,
+      "learning_rate": 0.000509090909090909,
+      "loss": 0.0148,
       "step": 700
     },
     {
       "epoch": 5.291970802919708,
+      "grad_norm": 0.16118614375591278,
+      "learning_rate": 0.0004901515151515152,
+      "loss": 0.0152,
       "step": 725
     },
     {
       "epoch": 5.474452554744525,
+      "grad_norm": 0.21335643529891968,
+      "learning_rate": 0.0004712121212121212,
+      "loss": 0.0108,
       "step": 750
     },
     {
       "epoch": 5.656934306569343,
+      "grad_norm": 0.41349828243255615,
+      "learning_rate": 0.00045227272727272727,
+      "loss": 0.0132,
       "step": 775
     },
     {
       "epoch": 5.839416058394161,
+      "grad_norm": 0.2152714878320694,
+      "learning_rate": 0.00043333333333333337,
+      "loss": 0.01,
       "step": 800
     },
     {
       "epoch": 6.0,
+      "eval_loss": 0.009678781032562256,
+      "eval_runtime": 190.6043,
+      "eval_samples_per_second": 4.292,
+      "eval_steps_per_second": 0.719,
       "step": 822
     },
     {
       "epoch": 6.021897810218978,
+      "grad_norm": 0.21781329810619354,
+      "learning_rate": 0.00041439393939393936,
+      "loss": 0.0176,
       "step": 825
     },
     {
       "epoch": 6.204379562043796,
+      "grad_norm": 0.08809634298086166,
+      "learning_rate": 0.00039545454545454546,
+      "loss": 0.0093,
       "step": 850
     },
     {
       "epoch": 6.386861313868613,
+      "grad_norm": 0.08477772027254105,
+      "learning_rate": 0.0003765151515151515,
+      "loss": 0.0073,
       "step": 875
     },
     {
       "epoch": 6.569343065693431,
+      "grad_norm": 0.1276165395975113,
+      "learning_rate": 0.0003575757575757576,
+      "loss": 0.0081,
       "step": 900
     },
     {
       "epoch": 6.751824817518248,
+      "grad_norm": 0.24087348580360413,
+      "learning_rate": 0.00033863636363636366,
+      "loss": 0.0083,
       "step": 925
     },
     {
       "epoch": 6.934306569343065,
+      "grad_norm": 0.08206004649400711,
+      "learning_rate": 0.0003196969696969697,
+      "loss": 0.0077,
       "step": 950
     },
     {
       "epoch": 7.0,
+      "eval_loss": 0.00517745828256011,
+      "eval_runtime": 189.453,
+      "eval_samples_per_second": 4.318,
+      "eval_steps_per_second": 0.723,
       "step": 959
     },
     {
       "epoch": 7.116788321167883,
+      "grad_norm": 0.0274250078946352,
+      "learning_rate": 0.0003007575757575758,
+      "loss": 0.0064,
       "step": 975
     },
     {
       "epoch": 7.299270072992701,
+      "grad_norm": 0.036731522530317307,
+      "learning_rate": 0.0002818181818181818,
+      "loss": 0.004,
       "step": 1000
     },
     {
       "epoch": 7.481751824817518,
+      "grad_norm": 0.14000241458415985,
+      "learning_rate": 0.0002628787878787879,
+      "loss": 0.0041,
       "step": 1025
     },
     {
       "epoch": 7.664233576642336,
+      "grad_norm": 0.10076174885034561,
+      "learning_rate": 0.00024393939393939392,
+      "loss": 0.0032,
       "step": 1050
     },
     {
       "epoch": 7.846715328467154,
+      "grad_norm": 0.2230420559644699,
+      "learning_rate": 0.00022500000000000002,
+      "loss": 0.0059,
       "step": 1075
     },
     {
       "epoch": 8.0,
+      "eval_loss": 0.00246231397613883,
+      "eval_runtime": 186.101,
+      "eval_samples_per_second": 4.395,
+      "eval_steps_per_second": 0.736,
       "step": 1096
     },
     {
       "epoch": 8.02919708029197,
+      "grad_norm": 0.012392624281346798,
+      "learning_rate": 0.00020606060606060607,
+      "loss": 0.004,
       "step": 1100
     },
     {
       "epoch": 8.211678832116789,
+      "grad_norm": 0.013894147239625454,
+      "learning_rate": 0.00018712121212121214,
+      "loss": 0.003,
       "step": 1125
     },
     {
       "epoch": 8.394160583941606,
+      "grad_norm": 0.043322790414094925,
+      "learning_rate": 0.0001681818181818182,
+      "loss": 0.0029,
       "step": 1150
     },
     {
       "epoch": 8.576642335766424,
+      "grad_norm": 0.04905259236693382,
+      "learning_rate": 0.00014924242424242424,
+      "loss": 0.0025,
       "step": 1175
     },
     {
       "epoch": 8.75912408759124,
+      "grad_norm": 0.16631004214286804,
+      "learning_rate": 0.0001303030303030303,
+      "loss": 0.0023,
       "step": 1200
     },
     {
       "epoch": 8.941605839416058,
+      "grad_norm": 0.048456668853759766,
+      "learning_rate": 0.00011136363636363636,
+      "loss": 0.0021,
       "step": 1225
     },
     {
       "epoch": 9.0,
+      "eval_loss": 0.0017340199556201696,
+      "eval_runtime": 189.6437,
+      "eval_samples_per_second": 4.313,
+      "eval_steps_per_second": 0.722,
       "step": 1233
     },
     {
       "epoch": 9.124087591240876,
+      "grad_norm": 0.02239864319562912,
+      "learning_rate": 9.242424242424242e-05,
+      "loss": 0.0021,
       "step": 1250
     },
     {
       "epoch": 9.306569343065693,
+      "grad_norm": 0.02109498344361782,
+      "learning_rate": 7.348484848484849e-05,
+      "loss": 0.0014,
       "step": 1275
     },
     {
       "epoch": 9.489051094890511,
+      "grad_norm": 0.013567096553742886,
+      "learning_rate": 5.4545454545454546e-05,
+      "loss": 0.0017,
       "step": 1300
     },
     {
       "epoch": 9.671532846715328,
+      "grad_norm": 0.04844328388571739,
+      "learning_rate": 3.560606060606061e-05,
+      "loss": 0.0015,
       "step": 1325
     },
     {
       "epoch": 9.854014598540147,
+      "grad_norm": 0.04474401846528053,
+      "learning_rate": 1.6666666666666667e-05,
+      "loss": 0.0019,
       "step": 1350
     },
     {
       "epoch": 10.0,
+      "eval_loss": 0.0015559077728539705,
+      "eval_runtime": 190.3953,
+      "eval_samples_per_second": 4.296,
+      "eval_steps_per_second": 0.72,
       "step": 1370
     },
     {
       "epoch": 10.0,
       "step": 1370,
       "total_flos": 2.4023145037824e+18,
+      "train_loss": 0.129441974483376,
+      "train_runtime": 4316.699,
+      "train_samples_per_second": 1.895,
+      "train_steps_per_second": 0.317
     }
   ],
   "logging_steps": 25,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1eaee302738ca585efa41acdcafac3f902174528001161c8201042bdd30b24c4
 size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:189e4c51ffcb162c7ba0bceace7408f517b914cd5ef169ead0ffa5f96c9ca66d
 size 5304