End of training

Browse files

Files changed (6) hide show

README.md +2 -2
all_results.json +15 -0
eval_results.json +9 -0
predict_results.txt +0 -0
train_results.json +9 -0
trainer_state.json +584 -0

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google-bert/bert-base-uncased](https://huggingface.co/google-bert/bert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6954
-- F1: 0.9290
 ## Model description

 This model is a fine-tuned version of [google-bert/bert-base-uncased](https://huggingface.co/google-bert/bert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2168
+- F1: 0.9326
 ## Model description

all_results.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+    "epoch": 40.0,
+    "eval_f1": 0.9326343966094134,
+    "eval_loss": 0.21681125462055206,
+    "eval_runtime": 24.9667,
+    "eval_samples": 8966,
+    "eval_samples_per_second": 359.118,
+    "eval_steps_per_second": 5.648,
+    "total_flos": 5.5714266203904e+16,
+    "train_loss": 0.024559360085297206,
+    "train_runtime": 8074.1532,
+    "train_samples": 21175,
+    "train_samples_per_second": 104.903,
+    "train_steps_per_second": 1.64
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 40.0,
+    "eval_f1": 0.9326343966094134,
+    "eval_loss": 0.21681125462055206,
+    "eval_runtime": 24.9667,
+    "eval_samples": 8966,
+    "eval_samples_per_second": 359.118,
+    "eval_steps_per_second": 5.648
+}

predict_results.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 40.0,
+    "total_flos": 5.5714266203904e+16,
+    "train_loss": 0.024559360085297206,
+    "train_runtime": 8074.1532,
+    "train_samples": 21175,
+    "train_samples_per_second": 104.903,
+    "train_steps_per_second": 1.64
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,584 @@

+{
+  "best_metric": 0.9326343966094134,
+  "best_model_checkpoint": "/tmp/classification_hos_bert/checkpoint-662",
+  "epoch": 40.0,
+  "eval_steps": 500,
+  "global_step": 13240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_f1": 0.9258309167967879,
+      "eval_loss": 0.21829327940940857,
+      "eval_runtime": 25.1238,
+      "eval_samples_per_second": 356.873,
+      "eval_steps_per_second": 5.612,
+      "step": 331
+    },
+    {
+      "epoch": 1.510574018126888,
+      "grad_norm": 2.2944066524505615,
+      "learning_rate": 2.8867069486404837e-05,
+      "loss": 0.239,
+      "step": 500
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1": 0.9326343966094134,
+      "eval_loss": 0.21681125462055206,
+      "eval_runtime": 25.1665,
+      "eval_samples_per_second": 356.267,
+      "eval_steps_per_second": 5.603,
+      "step": 662
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1": 0.9281730983716261,
+      "eval_loss": 0.25273850560188293,
+      "eval_runtime": 25.1148,
+      "eval_samples_per_second": 357.001,
+      "eval_steps_per_second": 5.614,
+      "step": 993
+    },
+    {
+      "epoch": 3.0211480362537766,
+      "grad_norm": 0.6900779604911804,
+      "learning_rate": 2.7734138972809666e-05,
+      "loss": 0.1255,
+      "step": 1000
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1": 0.9288422931072943,
+      "eval_loss": 0.28959983587265015,
+      "eval_runtime": 25.1245,
+      "eval_samples_per_second": 356.863,
+      "eval_steps_per_second": 5.612,
+      "step": 1324
+    },
+    {
+      "epoch": 4.531722054380665,
+      "grad_norm": 1.7124501466751099,
+      "learning_rate": 2.66012084592145e-05,
+      "loss": 0.0662,
+      "step": 1500
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1": 0.9266116439884007,
+      "eval_loss": 0.33890488743782043,
+      "eval_runtime": 25.1434,
+      "eval_samples_per_second": 356.595,
+      "eval_steps_per_second": 5.608,
+      "step": 1655
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1": 0.9293999553870176,
+      "eval_loss": 0.3792820870876312,
+      "eval_runtime": 25.1391,
+      "eval_samples_per_second": 356.656,
+      "eval_steps_per_second": 5.609,
+      "step": 1986
+    },
+    {
+      "epoch": 6.042296072507553,
+      "grad_norm": 0.8430729508399963,
+      "learning_rate": 2.5468277945619337e-05,
+      "loss": 0.0453,
+      "step": 2000
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1": 0.9251617220611198,
+      "eval_loss": 0.41103312373161316,
+      "eval_runtime": 25.1418,
+      "eval_samples_per_second": 356.617,
+      "eval_steps_per_second": 5.608,
+      "step": 2317
+    },
+    {
+      "epoch": 7.552870090634441,
+      "grad_norm": 0.8941565752029419,
+      "learning_rate": 2.433534743202417e-05,
+      "loss": 0.0257,
+      "step": 2500
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1": 0.9204773589114432,
+      "eval_loss": 0.4656200110912323,
+      "eval_runtime": 25.1662,
+      "eval_samples_per_second": 356.271,
+      "eval_steps_per_second": 5.603,
+      "step": 2648
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1": 0.9262770466205665,
+      "eval_loss": 0.49531668424606323,
+      "eval_runtime": 25.1846,
+      "eval_samples_per_second": 356.011,
+      "eval_steps_per_second": 5.599,
+      "step": 2979
+    },
+    {
+      "epoch": 9.06344410876133,
+      "grad_norm": 0.01369735598564148,
+      "learning_rate": 2.3202416918429002e-05,
+      "loss": 0.0196,
+      "step": 3000
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1": 0.9265001115324559,
+      "eval_loss": 0.5412325263023376,
+      "eval_runtime": 25.1393,
+      "eval_samples_per_second": 356.653,
+      "eval_steps_per_second": 5.609,
+      "step": 3310
+    },
+    {
+      "epoch": 10.574018126888218,
+      "grad_norm": 1.39247727394104,
+      "learning_rate": 2.2069486404833838e-05,
+      "loss": 0.0125,
+      "step": 3500
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1": 0.9244925273254517,
+      "eval_loss": 0.5528218150138855,
+      "eval_runtime": 25.112,
+      "eval_samples_per_second": 357.04,
+      "eval_steps_per_second": 5.615,
+      "step": 3641
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1": 0.9261655141646219,
+      "eval_loss": 0.5526648759841919,
+      "eval_runtime": 25.1453,
+      "eval_samples_per_second": 356.568,
+      "eval_steps_per_second": 5.607,
+      "step": 3972
+    },
+    {
+      "epoch": 12.084592145015106,
+      "grad_norm": 0.3373314440250397,
+      "learning_rate": 2.093655589123867e-05,
+      "loss": 0.0141,
+      "step": 4000
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1": 0.9276154360919028,
+      "eval_loss": 0.5682665705680847,
+      "eval_runtime": 25.1511,
+      "eval_samples_per_second": 356.486,
+      "eval_steps_per_second": 5.606,
+      "step": 4303
+    },
+    {
+      "epoch": 13.595166163141993,
+      "grad_norm": 0.07623090595006943,
+      "learning_rate": 1.9803625377643507e-05,
+      "loss": 0.0097,
+      "step": 4500
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1": 0.9239348650457283,
+      "eval_loss": 0.5835373997688293,
+      "eval_runtime": 25.143,
+      "eval_samples_per_second": 356.6,
+      "eval_steps_per_second": 5.608,
+      "step": 4634
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1": 0.9279500334597368,
+      "eval_loss": 0.5905042886734009,
+      "eval_runtime": 25.1447,
+      "eval_samples_per_second": 356.576,
+      "eval_steps_per_second": 5.608,
+      "step": 4965
+    },
+    {
+      "epoch": 15.105740181268882,
+      "grad_norm": 0.01646752655506134,
+      "learning_rate": 1.867069486404834e-05,
+      "loss": 0.0107,
+      "step": 5000
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1": 0.9298460852107964,
+      "eval_loss": 0.5799357295036316,
+      "eval_runtime": 25.142,
+      "eval_samples_per_second": 356.615,
+      "eval_steps_per_second": 5.608,
+      "step": 5296
+    },
+    {
+      "epoch": 16.61631419939577,
+      "grad_norm": 0.061389509588479996,
+      "learning_rate": 1.753776435045317e-05,
+      "loss": 0.009,
+      "step": 5500
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1": 0.9266116439884007,
+      "eval_loss": 0.6126909255981445,
+      "eval_runtime": 25.1653,
+      "eval_samples_per_second": 356.285,
+      "eval_steps_per_second": 5.603,
+      "step": 5627
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1": 0.9283961632835155,
+      "eval_loss": 0.591077446937561,
+      "eval_runtime": 25.1503,
+      "eval_samples_per_second": 356.497,
+      "eval_steps_per_second": 5.606,
+      "step": 5958
+    },
+    {
+      "epoch": 18.12688821752266,
+      "grad_norm": 0.0015490599907934666,
+      "learning_rate": 1.6404833836858007e-05,
+      "loss": 0.0084,
+      "step": 6000
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1": 0.930292215034575,
+      "eval_loss": 0.5900245308876038,
+      "eval_runtime": 25.1515,
+      "eval_samples_per_second": 356.479,
+      "eval_steps_per_second": 5.606,
+      "step": 6289
+    },
+    {
+      "epoch": 19.637462235649547,
+      "grad_norm": 0.34078794717788696,
+      "learning_rate": 1.527190332326284e-05,
+      "loss": 0.008,
+      "step": 6500
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1": 0.9282846308275708,
+      "eval_loss": 0.5922934412956238,
+      "eval_runtime": 25.1544,
+      "eval_samples_per_second": 356.438,
+      "eval_steps_per_second": 5.605,
+      "step": 6620
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1": 0.9305152799464644,
+      "eval_loss": 0.6186188459396362,
+      "eval_runtime": 25.1563,
+      "eval_samples_per_second": 356.412,
+      "eval_steps_per_second": 5.605,
+      "step": 6951
+    },
+    {
+      "epoch": 21.148036253776436,
+      "grad_norm": 0.16627806425094604,
+      "learning_rate": 1.4138972809667674e-05,
+      "loss": 0.0068,
+      "step": 7000
+    },
+    {
+      "epoch": 22.0,
+      "eval_f1": 0.9291768904751282,
+      "eval_loss": 0.6076038479804993,
+      "eval_runtime": 25.1577,
+      "eval_samples_per_second": 356.392,
+      "eval_steps_per_second": 5.605,
+      "step": 7282
+    },
+    {
+      "epoch": 22.658610271903324,
+      "grad_norm": 0.02961309626698494,
+      "learning_rate": 1.3006042296072508e-05,
+      "loss": 0.0064,
+      "step": 7500
+    },
+    {
+      "epoch": 23.0,
+      "eval_f1": 0.930292215034575,
+      "eval_loss": 0.578154444694519,
+      "eval_runtime": 25.1751,
+      "eval_samples_per_second": 356.145,
+      "eval_steps_per_second": 5.601,
+      "step": 7613
+    },
+    {
+      "epoch": 24.0,
+      "eval_f1": 0.9319652018737452,
+      "eval_loss": 0.607693076133728,
+      "eval_runtime": 25.1532,
+      "eval_samples_per_second": 356.455,
+      "eval_steps_per_second": 5.606,
+      "step": 7944
+    },
+    {
+      "epoch": 24.169184290030213,
+      "grad_norm": 0.012147185392677784,
+      "learning_rate": 1.187311178247734e-05,
+      "loss": 0.0048,
+      "step": 8000
+    },
+    {
+      "epoch": 25.0,
+      "eval_f1": 0.9281730983716261,
+      "eval_loss": 0.6445909738540649,
+      "eval_runtime": 25.1606,
+      "eval_samples_per_second": 356.351,
+      "eval_steps_per_second": 5.604,
+      "step": 8275
+    },
+    {
+      "epoch": 25.6797583081571,
+      "grad_norm": 0.0304458886384964,
+      "learning_rate": 1.0740181268882177e-05,
+      "loss": 0.0046,
+      "step": 8500
+    },
+    {
+      "epoch": 26.0,
+      "eval_f1": 0.9315190720499665,
+      "eval_loss": 0.6416810154914856,
+      "eval_runtime": 25.1644,
+      "eval_samples_per_second": 356.298,
+      "eval_steps_per_second": 5.603,
+      "step": 8606
+    },
+    {
+      "epoch": 27.0,
+      "eval_f1": 0.9282846308275708,
+      "eval_loss": 0.6655632257461548,
+      "eval_runtime": 25.1733,
+      "eval_samples_per_second": 356.171,
+      "eval_steps_per_second": 5.601,
+      "step": 8937
+    },
+    {
+      "epoch": 27.190332326283986,
+      "grad_norm": 0.0014442217070609331,
+      "learning_rate": 9.60725075528701e-06,
+      "loss": 0.0053,
+      "step": 9000
+    },
+    {
+      "epoch": 28.0,
+      "eval_f1": 0.9288422931072943,
+      "eval_loss": 0.6541187763214111,
+      "eval_runtime": 25.1766,
+      "eval_samples_per_second": 356.124,
+      "eval_steps_per_second": 5.6,
+      "step": 9268
+    },
+    {
+      "epoch": 28.700906344410875,
+      "grad_norm": 0.0008725296938791871,
+      "learning_rate": 8.474320241691843e-06,
+      "loss": 0.0043,
+      "step": 9500
+    },
+    {
+      "epoch": 29.0,
+      "eval_f1": 0.9277269685478474,
+      "eval_loss": 0.6702625155448914,
+      "eval_runtime": 25.1263,
+      "eval_samples_per_second": 356.837,
+      "eval_steps_per_second": 5.612,
+      "step": 9599
+    },
+    {
+      "epoch": 30.0,
+      "eval_f1": 0.9251617220611198,
+      "eval_loss": 0.6871447563171387,
+      "eval_runtime": 25.1371,
+      "eval_samples_per_second": 356.684,
+      "eval_steps_per_second": 5.609,
+      "step": 9930
+    },
+    {
+      "epoch": 30.211480362537763,
+      "grad_norm": 0.0005139079876244068,
+      "learning_rate": 7.341389728096677e-06,
+      "loss": 0.0041,
+      "step": 10000
+    },
+    {
+      "epoch": 31.0,
+      "eval_f1": 0.9286192281954049,
+      "eval_loss": 0.6735148429870605,
+      "eval_runtime": 25.1585,
+      "eval_samples_per_second": 356.38,
+      "eval_steps_per_second": 5.604,
+      "step": 10261
+    },
+    {
+      "epoch": 31.72205438066465,
+      "grad_norm": 0.002090197755023837,
+      "learning_rate": 6.208459214501511e-06,
+      "loss": 0.0034,
+      "step": 10500
+    },
+    {
+      "epoch": 32.0,
+      "eval_f1": 0.9306268124024091,
+      "eval_loss": 0.6650559306144714,
+      "eval_runtime": 25.1466,
+      "eval_samples_per_second": 356.549,
+      "eval_steps_per_second": 5.607,
+      "step": 10592
+    },
+    {
+      "epoch": 33.0,
+      "eval_f1": 0.9305152799464644,
+      "eval_loss": 0.6799349188804626,
+      "eval_runtime": 25.1547,
+      "eval_samples_per_second": 356.435,
+      "eval_steps_per_second": 5.605,
+      "step": 10923
+    },
+    {
+      "epoch": 33.23262839879154,
+      "grad_norm": 0.016955886036157608,
+      "learning_rate": 5.075528700906345e-06,
+      "loss": 0.0032,
+      "step": 11000
+    },
+    {
+      "epoch": 34.0,
+      "eval_f1": 0.9297345527548516,
+      "eval_loss": 0.6752559542655945,
+      "eval_runtime": 25.1385,
+      "eval_samples_per_second": 356.664,
+      "eval_steps_per_second": 5.609,
+      "step": 11254
+    },
+    {
+      "epoch": 34.74320241691843,
+      "grad_norm": 0.0011760705383494496,
+      "learning_rate": 3.942598187311178e-06,
+      "loss": 0.0031,
+      "step": 11500
+    },
+    {
+      "epoch": 35.0,
+      "eval_f1": 0.9309614097702431,
+      "eval_loss": 0.6854746341705322,
+      "eval_runtime": 25.1626,
+      "eval_samples_per_second": 356.323,
+      "eval_steps_per_second": 5.604,
+      "step": 11585
+    },
+    {
+      "epoch": 36.0,
+      "eval_f1": 0.9306268124024091,
+      "eval_loss": 0.6885010600090027,
+      "eval_runtime": 25.1518,
+      "eval_samples_per_second": 356.475,
+      "eval_steps_per_second": 5.606,
+      "step": 11916
+    },
+    {
+      "epoch": 36.25377643504532,
+      "grad_norm": 0.000429723208071664,
+      "learning_rate": 2.809667673716012e-06,
+      "loss": 0.003,
+      "step": 12000
+    },
+    {
+      "epoch": 37.0,
+      "eval_f1": 0.9292884229310729,
+      "eval_loss": 0.6960038542747498,
+      "eval_runtime": 25.1589,
+      "eval_samples_per_second": 356.375,
+      "eval_steps_per_second": 5.604,
+      "step": 12247
+    },
+    {
+      "epoch": 37.764350453172206,
+      "grad_norm": 0.0003884187317453325,
+      "learning_rate": 1.6767371601208459e-06,
+      "loss": 0.0026,
+      "step": 12500
+    },
+    {
+      "epoch": 38.0,
+      "eval_f1": 0.9291768904751282,
+      "eval_loss": 0.6950347423553467,
+      "eval_runtime": 25.1564,
+      "eval_samples_per_second": 356.41,
+      "eval_steps_per_second": 5.605,
+      "step": 12578
+    },
+    {
+      "epoch": 39.0,
+      "eval_f1": 0.9297345527548516,
+      "eval_loss": 0.6964432597160339,
+      "eval_runtime": 25.1685,
+      "eval_samples_per_second": 356.238,
+      "eval_steps_per_second": 5.602,
+      "step": 12909
+    },
+    {
+      "epoch": 39.274924471299094,
+      "grad_norm": 0.03609294071793556,
+      "learning_rate": 5.438066465256798e-07,
+      "loss": 0.0033,
+      "step": 13000
+    },
+    {
+      "epoch": 40.0,
+      "eval_f1": 0.928953825563239,
+      "eval_loss": 0.6954053640365601,
+      "eval_runtime": 25.1629,
+      "eval_samples_per_second": 356.318,
+      "eval_steps_per_second": 5.603,
+      "step": 13240
+    },
+    {
+      "epoch": 40.0,
+      "step": 13240,
+      "total_flos": 5.5714266203904e+16,
+      "train_loss": 0.024559360085297206,
+      "train_runtime": 8074.1532,
+      "train_samples_per_second": 104.903,
+      "train_steps_per_second": 1.64
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 13240,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 40,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.5714266203904e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}