knowledgator
/

gliner-qwen-1.5B-v1.0

@@ -3,7 +3,7 @@
   "dropout": 0.4,
   "embed_ent_token": false,
   "encoder_config": {
-    "_name_or_path": "knowledgator/Qwen2-1.5B-Instruct-checkpint30000",
     "add_cross_attention": false,
     "architectures": [
       "Qwen2ForCausalLM"
@@ -81,34 +81,34 @@
     "use_bfloat16": false,
     "use_cache": true,
     "use_sliding_window": false,
-    "vocab_size": 151648
   },
   "ent_token": "<<ENT>>",
-  "eval_every": 3000,
   "fine_tune": true,
   "freeze_token_rep": false,
   "fuse_layers": false,
   "has_rnn": true,
   "hidden_size": 2048,
-  "label_smoothing": 0.0,
   "labels_encoder": null,
   "labels_encoder_config": null,
-  "log_dir": "models/qwen",
-  "loss_alpha": 0.75,
-  "loss_gamma": -1,
   "loss_reduction": "sum",
-  "lr_encoder": "1e-5",
   "lr_others": "5e-5",
   "max_grad_norm": 10.0,
-  "max_len": 512,
   "max_neg_type_ratio": 1,
-  "max_types": 30,
   "max_width": 12,
-  "model_name": "knowledgator/Qwen2-1.5B-Instruct-checkpint30000",
   "model_type": "gliner",
   "name": "span level gliner",
-  "num_post_fusion_layers": 1,
-  "num_steps": 9000,
   "post_fusion_schema": "",
   "prev_path": null,
   "random_drop": true,

   "dropout": 0.4,
   "embed_ent_token": false,
   "encoder_config": {
+    "_name_or_path": "knowledgator/Qwen2-1.5B-Instruct-checkpint120000",
     "add_cross_attention": false,
     "architectures": [
       "Qwen2ForCausalLM"
     "use_bfloat16": false,
     "use_cache": true,
     "use_sliding_window": false,
+    "vocab_size": 151649
   },
   "ent_token": "<<ENT>>",
+  "eval_every": 1000,
   "fine_tune": true,
   "freeze_token_rep": false,
   "fuse_layers": false,
   "has_rnn": true,
   "hidden_size": 2048,
+  "label_smoothing": 0.0001,
   "labels_encoder": null,
   "labels_encoder_config": null,
+  "log_dir": "qwen",
+  "loss_alpha": 0.8,
+  "loss_gamma": 2,
   "loss_reduction": "sum",
+  "lr_encoder": "7e-6",
   "lr_others": "5e-5",
   "max_grad_norm": 10.0,
+  "max_len": 1024,
   "max_neg_type_ratio": 1,
+  "max_types": 100,
   "max_width": 12,
+  "model_name": "knowledgator/Qwen2-1.5B-Instruct-checkpint120000",
   "model_type": "gliner",
   "name": "span level gliner",
+  "num_post_fusion_layers": 3,
+  "num_steps": 6000,
   "post_fusion_schema": "",
   "prev_path": null,
   "random_drop": true,

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23fceb25e4d7b2391ad53746befeb67e6fc2e1b76178b208ca070a6ef7a983e1
-size 6890734142

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cab72664e78cfe5a1199ce19b01b5573061c6ba94265674a7199cebef4c5d19
+size 6890740286

trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.046207497820401,
   "eval_steps": 500,
   "global_step": 1200,
   "is_hyper_param_search": false,
@@ -9,95 +9,95 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.08718395815170009,
-      "grad_norm": 1260.8033447265625,
-      "learning_rate": 8.333333333333333e-07,
-      "loss": 14.8341,
       "step": 100
     },
     {
-      "epoch": 0.17436791630340018,
-      "grad_norm": 745.888427734375,
-      "learning_rate": 9.259259259259259e-07,
-      "loss": 15.6171,
       "step": 200
     },
     {
-      "epoch": 0.26155187445510025,
-      "grad_norm": 840.9533081054688,
-      "learning_rate": 8.333333333333333e-07,
-      "loss": 15.8498,
       "step": 300
     },
     {
-      "epoch": 0.34873583260680036,
-      "grad_norm": 373.6918029785156,
-      "learning_rate": 7.407407407407406e-07,
-      "loss": 16.6859,
       "step": 400
     },
     {
-      "epoch": 0.43591979075850046,
-      "grad_norm": 580.3277587890625,
-      "learning_rate": 6.481481481481481e-07,
-      "loss": 14.4898,
       "step": 500
     },
     {
-      "epoch": 0.5231037489102005,
-      "grad_norm": 77.99569702148438,
-      "learning_rate": 5.555555555555555e-07,
-      "loss": 15.7702,
       "step": 600
     },
     {
-      "epoch": 0.6102877070619006,
-      "grad_norm": 147.39584350585938,
-      "learning_rate": 4.6296296296296297e-07,
-      "loss": 15.0814,
       "step": 700
     },
     {
-      "epoch": 0.6974716652136007,
-      "grad_norm": 141.38795471191406,
-      "learning_rate": 3.703703703703703e-07,
-      "loss": 12.6944,
       "step": 800
     },
     {
-      "epoch": 0.7846556233653008,
-      "grad_norm": 947.9025268554688,
-      "learning_rate": 2.7777777777777776e-07,
-      "loss": 12.4095,
       "step": 900
     },
     {
-      "epoch": 0.8718395815170009,
-      "grad_norm": 862.9531860351562,
-      "learning_rate": 1.8518518518518516e-07,
-      "loss": 12.4597,
       "step": 1000
     },
     {
-      "epoch": 0.9590235396687009,
-      "grad_norm": 247.12240600585938,
-      "learning_rate": 9.259259259259258e-08,
-      "loss": 11.3951,
       "step": 1100
     },
     {
       "epoch": 1.0,
-      "eval_loss": 476.5635681152344,
-      "eval_runtime": 22.3653,
-      "eval_samples_per_second": 45.606,
-      "eval_steps_per_second": 5.723,
-      "step": 1147
     },
     {
-      "epoch": 1.046207497820401,
-      "grad_norm": 573.4383544921875,
       "learning_rate": 0.0,
-      "loss": 12.2434,
       "step": 1200
     }
   ],

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.056338028169014,
   "eval_steps": 500,
   "global_step": 1200,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0880281690140845,
+      "grad_norm": 2641.419677734375,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 207.5718,
       "step": 100
     },
     {
+      "epoch": 0.176056338028169,
+      "grad_norm": 3060.73486328125,
+      "learning_rate": 4.62962962962963e-06,
+      "loss": 126.3771,
       "step": 200
     },
     {
+      "epoch": 0.2640845070422535,
+      "grad_norm": 808.4242553710938,
+      "learning_rate": 4.166666666666667e-06,
+      "loss": 125.2416,
       "step": 300
     },
     {
+      "epoch": 0.352112676056338,
+      "grad_norm": 1393.006591796875,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 104.9298,
       "step": 400
     },
     {
+      "epoch": 0.44014084507042256,
+      "grad_norm": 1380.7303466796875,
+      "learning_rate": 3.240740740740741e-06,
+      "loss": 109.4596,
       "step": 500
     },
     {
+      "epoch": 0.528169014084507,
+      "grad_norm": 2457.56494140625,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 110.524,
       "step": 600
     },
     {
+      "epoch": 0.6161971830985915,
+      "grad_norm": 2740.54052734375,
+      "learning_rate": 2.314814814814815e-06,
+      "loss": 114.8047,
       "step": 700
     },
     {
+      "epoch": 0.704225352112676,
+      "grad_norm": 1358.532470703125,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 105.7686,
       "step": 800
     },
     {
+      "epoch": 0.7922535211267606,
+      "grad_norm": 2155.906982421875,
+      "learning_rate": 1.3888888888888892e-06,
+      "loss": 93.1012,
       "step": 900
     },
     {
+      "epoch": 0.8802816901408451,
+      "grad_norm": 2438.5126953125,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 108.8455,
       "step": 1000
     },
     {
+      "epoch": 0.9683098591549296,
+      "grad_norm": 1066.7130126953125,
+      "learning_rate": 4.6296296296296297e-07,
+      "loss": 99.7556,
       "step": 1100
     },
     {
       "epoch": 1.0,
+      "eval_loss": 283.56231689453125,
+      "eval_runtime": 22.2792,
+      "eval_samples_per_second": 45.334,
+      "eval_steps_per_second": 5.7,
+      "step": 1136
     },
     {
+      "epoch": 1.056338028169014,
+      "grad_norm": 2160.288818359375,
       "learning_rate": 0.0,
+      "loss": 106.0304,
       "step": 1200
     }
   ],