Training in progress, step 34, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +68 -68
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,12 +20,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "up_proj",
-    "gate_proj",
-    "down_proj",
     "k_proj",
     "o_proj",
-    "v_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
     "up_proj",
     "k_proj",
+    "down_proj",
+    "gate_proj",
     "o_proj",
     "q_proj"
   ],
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32f13e9607a7f62abd36347c6c4e722278e2b7a89b1f08dc1bca3cbf4441abb5
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f7557a56d5c807366776e4fbd8080f5b5293562699529fae6526f3f957deb06
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2b70e4d3ee4fcb887f129bf52cff30c1884f44873679b0f2cb63c94c630ff1b
 size 640009682

 version https://git-lfs.github.com/spec/v1
+oid sha256:1d3aa1f25528b6de45f815a97975a16bf189e3fac3d1cc93617eaac78bc3d5e0
 size 640009682

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "best_metric": 0.002759997732937336,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
   "epoch": 3.0726256983240225,
   "eval_steps": 25,
@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 0.0893854748603352,
-      "grad_norm": 8.261157989501953,
       "learning_rate": 5e-05,
       "loss": 5.0286,
       "step": 1
@@ -18,248 +18,248 @@
     {
       "epoch": 0.0893854748603352,
       "eval_loss": 4.40208625793457,
-      "eval_runtime": 3.2436,
-      "eval_samples_per_second": 23.122,
-      "eval_steps_per_second": 3.083,
       "step": 1
     },
     {
       "epoch": 0.1787709497206704,
-      "grad_norm": 8.240191459655762,
       "learning_rate": 0.0001,
       "loss": 3.9074,
       "step": 2
     },
     {
       "epoch": 0.2681564245810056,
-      "grad_norm": 7.679316997528076,
       "learning_rate": 9.975923633360985e-05,
-      "loss": 4.5677,
       "step": 3
     },
     {
       "epoch": 0.3575418994413408,
-      "grad_norm": 7.1442694664001465,
       "learning_rate": 9.903926402016153e-05,
-      "loss": 2.0469,
       "step": 4
     },
     {
       "epoch": 0.44692737430167595,
-      "grad_norm": 4.853695392608643,
       "learning_rate": 9.784701678661045e-05,
-      "loss": 0.8659,
       "step": 5
     },
     {
       "epoch": 0.5363128491620112,
-      "grad_norm": 3.391883134841919,
       "learning_rate": 9.619397662556435e-05,
-      "loss": 1.2657,
       "step": 6
     },
     {
       "epoch": 0.6256983240223464,
-      "grad_norm": 1.3433865308761597,
       "learning_rate": 9.409606321741775e-05,
-      "loss": 0.1775,
       "step": 7
     },
     {
       "epoch": 0.7150837988826816,
-      "grad_norm": 2.873962640762329,
       "learning_rate": 9.157348061512727e-05,
-      "loss": 0.1425,
       "step": 8
     },
     {
       "epoch": 0.8044692737430168,
-      "grad_norm": 1.314467430114746,
       "learning_rate": 8.865052266813685e-05,
-      "loss": 0.5533,
       "step": 9
     },
     {
       "epoch": 0.8938547486033519,
-      "grad_norm": 0.15874236822128296,
       "learning_rate": 8.535533905932738e-05,
       "loss": 0.0064,
       "step": 10
     },
     {
       "epoch": 0.9832402234636871,
-      "grad_norm": 0.46788260340690613,
       "learning_rate": 8.171966420818228e-05,
-      "loss": 0.0222,
       "step": 11
     },
     {
       "epoch": 1.0837988826815643,
-      "grad_norm": 2.329991579055786,
       "learning_rate": 7.777851165098012e-05,
-      "loss": 0.8987,
       "step": 12
     },
     {
       "epoch": 1.1731843575418994,
-      "grad_norm": 0.0806741714477539,
       "learning_rate": 7.35698368412999e-05,
       "loss": 0.0027,
       "step": 13
     },
     {
       "epoch": 1.2625698324022347,
-      "grad_norm": 0.9975904226303101,
       "learning_rate": 6.91341716182545e-05,
-      "loss": 0.3651,
       "step": 14
     },
     {
       "epoch": 1.3519553072625698,
-      "grad_norm": 0.031698644161224365,
       "learning_rate": 6.451423386272312e-05,
-      "loss": 0.0008,
       "step": 15
     },
     {
       "epoch": 1.441340782122905,
-      "grad_norm": 0.15326736867427826,
       "learning_rate": 5.9754516100806423e-05,
-      "loss": 0.0016,
       "step": 16
     },
     {
       "epoch": 1.5307262569832403,
-      "grad_norm": 1.4065415859222412,
       "learning_rate": 5.490085701647805e-05,
-      "loss": 0.2754,
       "step": 17
     },
     {
       "epoch": 1.6201117318435754,
-      "grad_norm": 0.047310031950473785,
       "learning_rate": 5e-05,
       "loss": 0.0011,
       "step": 18
     },
     {
       "epoch": 1.7094972067039107,
-      "grad_norm": 0.2543170750141144,
       "learning_rate": 4.509914298352197e-05,
-      "loss": 0.0083,
       "step": 19
     },
     {
       "epoch": 1.7988826815642458,
-      "grad_norm": 0.9412180781364441,
       "learning_rate": 4.0245483899193595e-05,
-      "loss": 0.2082,
       "step": 20
     },
     {
       "epoch": 1.888268156424581,
-      "grad_norm": 0.1728094518184662,
       "learning_rate": 3.5485766137276894e-05,
-      "loss": 0.0041,
       "step": 21
     },
     {
       "epoch": 1.9776536312849162,
-      "grad_norm": 0.04329400509595871,
       "learning_rate": 3.086582838174551e-05,
-      "loss": 0.001,
       "step": 22
     },
     {
       "epoch": 2.078212290502793,
-      "grad_norm": 0.5819940567016602,
       "learning_rate": 2.6430163158700115e-05,
-      "loss": 0.0821,
       "step": 23
     },
     {
       "epoch": 2.1675977653631286,
-      "grad_norm": 0.18595924973487854,
       "learning_rate": 2.2221488349019903e-05,
-      "loss": 0.0032,
       "step": 24
     },
     {
       "epoch": 2.2569832402234637,
-      "grad_norm": 0.619234025478363,
       "learning_rate": 1.8280335791817733e-05,
-      "loss": 0.1096,
       "step": 25
     },
     {
       "epoch": 2.2569832402234637,
-      "eval_loss": 0.002759997732937336,
-      "eval_runtime": 3.2425,
-      "eval_samples_per_second": 23.131,
-      "eval_steps_per_second": 3.084,
       "step": 25
     },
     {
       "epoch": 2.346368715083799,
-      "grad_norm": 0.09329082071781158,
       "learning_rate": 1.4644660940672627e-05,
-      "loss": 0.0015,
       "step": 26
     },
     {
       "epoch": 2.435754189944134,
-      "grad_norm": 0.08940267562866211,
       "learning_rate": 1.134947733186315e-05,
       "loss": 0.0012,
       "step": 27
     },
     {
       "epoch": 2.5251396648044695,
-      "grad_norm": 0.5705907940864563,
       "learning_rate": 8.426519384872733e-06,
-      "loss": 0.0157,
       "step": 28
     },
     {
       "epoch": 2.6145251396648046,
-      "grad_norm": 0.16675959527492523,
       "learning_rate": 5.903936782582253e-06,
-      "loss": 0.0024,
       "step": 29
     },
     {
       "epoch": 2.7039106145251397,
-      "grad_norm": 0.04368215799331665,
       "learning_rate": 3.8060233744356633e-06,
       "loss": 0.0009,
       "step": 30
     },
     {
       "epoch": 2.793296089385475,
-      "grad_norm": 0.26671910285949707,
       "learning_rate": 2.152983213389559e-06,
       "loss": 0.0438,
       "step": 31
     },
     {
       "epoch": 2.88268156424581,
-      "grad_norm": 0.41659799218177795,
       "learning_rate": 9.607359798384785e-07,
-      "loss": 0.0093,
       "step": 32
     },
     {
       "epoch": 2.972067039106145,
-      "grad_norm": 0.05689646303653717,
       "learning_rate": 2.407636663901591e-07,
-      "loss": 0.0011,
       "step": 33
     },
     {
       "epoch": 3.0726256983240225,
-      "grad_norm": 1.820482850074768,
       "learning_rate": 0.0,
-      "loss": 0.2558,
       "step": 34
     }
   ],

 {
+  "best_metric": 0.0025754901580512524,
   "best_model_checkpoint": "miner_id_24/checkpoint-25",
   "epoch": 3.0726256983240225,
   "eval_steps": 25,
   "log_history": [
     {
       "epoch": 0.0893854748603352,
+      "grad_norm": 8.0423002243042,
       "learning_rate": 5e-05,
       "loss": 5.0286,
       "step": 1
     {
       "epoch": 0.0893854748603352,
       "eval_loss": 4.40208625793457,
+      "eval_runtime": 3.2539,
+      "eval_samples_per_second": 23.049,
+      "eval_steps_per_second": 3.073,
       "step": 1
     },
     {
       "epoch": 0.1787709497206704,
+      "grad_norm": 7.9249444007873535,
       "learning_rate": 0.0001,
       "loss": 3.9074,
       "step": 2
     },
     {
       "epoch": 0.2681564245810056,
+      "grad_norm": 7.390117645263672,
       "learning_rate": 9.975923633360985e-05,
+      "loss": 4.5775,
       "step": 3
     },
     {
       "epoch": 0.3575418994413408,
+      "grad_norm": 7.0057454109191895,
       "learning_rate": 9.903926402016153e-05,
+      "loss": 2.0458,
       "step": 4
     },
     {
       "epoch": 0.44692737430167595,
+      "grad_norm": 4.7510576248168945,
       "learning_rate": 9.784701678661045e-05,
+      "loss": 0.8646,
       "step": 5
     },
     {
       "epoch": 0.5363128491620112,
+      "grad_norm": 3.363969564437866,
       "learning_rate": 9.619397662556435e-05,
+      "loss": 1.2702,
       "step": 6
     },
     {
       "epoch": 0.6256983240223464,
+      "grad_norm": 1.331066608428955,
       "learning_rate": 9.409606321741775e-05,
+      "loss": 0.1811,
       "step": 7
     },
     {
       "epoch": 0.7150837988826816,
+      "grad_norm": 2.870572566986084,
       "learning_rate": 9.157348061512727e-05,
+      "loss": 0.1453,
       "step": 8
     },
     {
       "epoch": 0.8044692737430168,
+      "grad_norm": 1.3020648956298828,
       "learning_rate": 8.865052266813685e-05,
+      "loss": 0.5605,
       "step": 9
     },
     {
       "epoch": 0.8938547486033519,
+      "grad_norm": 0.14853540062904358,
       "learning_rate": 8.535533905932738e-05,
       "loss": 0.0064,
       "step": 10
     },
     {
       "epoch": 0.9832402234636871,
+      "grad_norm": 0.43610215187072754,
       "learning_rate": 8.171966420818228e-05,
+      "loss": 0.0215,
       "step": 11
     },
     {
       "epoch": 1.0837988826815643,
+      "grad_norm": 2.341407299041748,
       "learning_rate": 7.777851165098012e-05,
+      "loss": 0.902,
       "step": 12
     },
     {
       "epoch": 1.1731843575418994,
+      "grad_norm": 0.07661772519350052,
       "learning_rate": 7.35698368412999e-05,
       "loss": 0.0027,
       "step": 13
     },
     {
       "epoch": 1.2625698324022347,
+      "grad_norm": 1.0086647272109985,
       "learning_rate": 6.91341716182545e-05,
+      "loss": 0.3641,
       "step": 14
     },
     {
       "epoch": 1.3519553072625698,
+      "grad_norm": 0.025730464607477188,
       "learning_rate": 6.451423386272312e-05,
+      "loss": 0.0007,
       "step": 15
     },
     {
       "epoch": 1.441340782122905,
+      "grad_norm": 0.12439494580030441,
       "learning_rate": 5.9754516100806423e-05,
+      "loss": 0.0014,
       "step": 16
     },
     {
       "epoch": 1.5307262569832403,
+      "grad_norm": 1.2186359167099,
       "learning_rate": 5.490085701647805e-05,
+      "loss": 0.2713,
       "step": 17
     },
     {
       "epoch": 1.6201117318435754,
+      "grad_norm": 0.04545736312866211,
       "learning_rate": 5e-05,
       "loss": 0.0011,
       "step": 18
     },
     {
       "epoch": 1.7094972067039107,
+      "grad_norm": 0.26565396785736084,
       "learning_rate": 4.509914298352197e-05,
+      "loss": 0.0092,
       "step": 19
     },
     {
       "epoch": 1.7988826815642458,
+      "grad_norm": 0.9349803328514099,
       "learning_rate": 4.0245483899193595e-05,
+      "loss": 0.2072,
       "step": 20
     },
     {
       "epoch": 1.888268156424581,
+      "grad_norm": 0.18692974746227264,
       "learning_rate": 3.5485766137276894e-05,
+      "loss": 0.0045,
       "step": 21
     },
     {
       "epoch": 1.9776536312849162,
+      "grad_norm": 0.05311136692762375,
       "learning_rate": 3.086582838174551e-05,
+      "loss": 0.0012,
       "step": 22
     },
     {
       "epoch": 2.078212290502793,
+      "grad_norm": 0.5805853605270386,
       "learning_rate": 2.6430163158700115e-05,
+      "loss": 0.0816,
       "step": 23
     },
     {
       "epoch": 2.1675977653631286,
+      "grad_norm": 0.23314891755580902,
       "learning_rate": 2.2221488349019903e-05,
+      "loss": 0.004,
       "step": 24
     },
     {
       "epoch": 2.2569832402234637,
+      "grad_norm": 0.6197263598442078,
       "learning_rate": 1.8280335791817733e-05,
+      "loss": 0.1083,
       "step": 25
     },
     {
       "epoch": 2.2569832402234637,
+      "eval_loss": 0.0025754901580512524,
+      "eval_runtime": 3.2587,
+      "eval_samples_per_second": 23.015,
+      "eval_steps_per_second": 3.069,
       "step": 25
     },
     {
       "epoch": 2.346368715083799,
+      "grad_norm": 0.1398189812898636,
       "learning_rate": 1.4644660940672627e-05,
+      "loss": 0.0021,
       "step": 26
     },
     {
       "epoch": 2.435754189944134,
+      "grad_norm": 0.09074980765581131,
       "learning_rate": 1.134947733186315e-05,
       "loss": 0.0012,
       "step": 27
     },
     {
       "epoch": 2.5251396648044695,
+      "grad_norm": 0.5441466569900513,
       "learning_rate": 8.426519384872733e-06,
+      "loss": 0.0136,
       "step": 28
     },
     {
       "epoch": 2.6145251396648046,
+      "grad_norm": 0.17076553404331207,
       "learning_rate": 5.903936782582253e-06,
+      "loss": 0.0025,
       "step": 29
     },
     {
       "epoch": 2.7039106145251397,
+      "grad_norm": 0.04144348204135895,
       "learning_rate": 3.8060233744356633e-06,
       "loss": 0.0009,
       "step": 30
     },
     {
       "epoch": 2.793296089385475,
+      "grad_norm": 0.2611657977104187,
       "learning_rate": 2.152983213389559e-06,
       "loss": 0.0438,
       "step": 31
     },
     {
       "epoch": 2.88268156424581,
+      "grad_norm": 0.39039623737335205,
       "learning_rate": 9.607359798384785e-07,
+      "loss": 0.0091,
       "step": 32
     },
     {
       "epoch": 2.972067039106145,
+      "grad_norm": 0.04590270668268204,
       "learning_rate": 2.407636663901591e-07,
+      "loss": 0.0009,
       "step": 33
     },
     {
       "epoch": 3.0726256983240225,
+      "grad_norm": 1.8067948818206787,
       "learning_rate": 0.0,
+      "loss": 0.2495,
       "step": 34
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36764b90adc2cda234cb27fbe5577f8dd90ec791c0bc4559b1a90ac18fa5b20d
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:b42f1ce68c7b4db4cb68bcee97e43a6c1d797d25c673c723efcb20fa6d8d4fb5
 size 6776