Model save

Browse files

Files changed (7) hide show

all_results.json +4 -4
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +64 -64
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.992,
     "total_flos": 0.0,
-    "train_loss": 0.11663837057928886,
-    "train_runtime": 749.8498,
     "train_samples": 1999,
-    "train_samples_per_second": 2.666,
-    "train_steps_per_second": 0.083
 }

 {
     "epoch": 0.992,
     "total_flos": 0.0,
+    "train_loss": 0.10689828472752724,
+    "train_runtime": 796.2858,
     "train_samples": 1999,
+    "train_samples_per_second": 2.51,
+    "train_steps_per_second": 0.078
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3713e12ac5f0eaa7b9be1100cbb0063059bef563f96dbddbdeb7155ca520f223
 size 4949453792

 version https://git-lfs.github.com/spec/v1
+oid sha256:f28f98ac0660e96a5060de697a7425d8b1ded924d6467ea848f622456ce98614
 size 4949453792

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:061e5f5bf83531ae381007b5f84f6b5dcfeeab13cb5e9b578446e4f773eea97b
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd6e9d95663fc3a9e5c1682afa197be3195382029688aaf891727289345c3fb5
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:87b37957d2c2faba2f5d8b333de4c3984232cfdaa3950238aada2f3e966fb4ba
 size 4546807800

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b041eede0b6435f399b5424767050eadadee3fe095c4ab9febf64739c59403e
 size 4546807800

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.992,
     "total_flos": 0.0,
-    "train_loss": 0.11663837057928886,
-    "train_runtime": 749.8498,
     "train_samples": 1999,
-    "train_samples_per_second": 2.666,
-    "train_steps_per_second": 0.083
 }

 {
     "epoch": 0.992,
     "total_flos": 0.0,
+    "train_loss": 0.10689828472752724,
+    "train_runtime": 796.2858,
     "train_samples": 1999,
+    "train_samples_per_second": 2.51,
+    "train_steps_per_second": 0.078
 }

trainer_state.json CHANGED Viewed

@@ -10,13 +10,13 @@
   "log_history": [
     {
       "epoch": 0.016,
-      "grad_norm": 270.6478620436586,
       "learning_rate": 7.142857142857142e-08,
-      "logits/generated": -2.8518388271331787,
-      "logits/real": -2.431556224822998,
-      "logps/generated": -241.12493896484375,
-      "logps/real": -88.04447174072266,
-      "loss": 0.788,
       "rewards/accuracies": 0.0,
       "rewards/generated": 0.0,
       "rewards/margins": 0.0,
@@ -25,102 +25,102 @@
     },
     {
       "epoch": 0.16,
-      "grad_norm": 3.4825336012871664,
       "learning_rate": 4.727272727272727e-07,
-      "logits/generated": -3.112872362136841,
-      "logits/real": -2.3448193073272705,
-      "logps/generated": -285.2105712890625,
-      "logps/real": -104.45608520507812,
-      "loss": 0.279,
       "rewards/accuracies": 0.8888888955116272,
-      "rewards/generated": -3.95505690574646,
-      "rewards/margins": 5.338830471038818,
-      "rewards/real": 1.3837733268737793,
       "step": 10
     },
     {
       "epoch": 0.32,
-      "grad_norm": 0.900671571621766,
       "learning_rate": 3.818181818181818e-07,
-      "logits/generated": -3.139878749847412,
-      "logits/real": -2.3643927574157715,
-      "logps/generated": -320.77362060546875,
-      "logps/real": -73.03101348876953,
-      "loss": 0.0785,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -8.526379585266113,
-      "rewards/margins": 11.384855270385742,
-      "rewards/real": 2.858475923538208,
       "step": 20
     },
     {
       "epoch": 0.48,
-      "grad_norm": 1.4149577906908892,
       "learning_rate": 2.909090909090909e-07,
-      "logits/generated": -3.261312484741211,
-      "logits/real": -2.3303236961364746,
-      "logps/generated": -352.6148376464844,
-      "logps/real": -65.670654296875,
-      "loss": 0.0706,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -10.558695793151855,
-      "rewards/margins": 13.603212356567383,
-      "rewards/real": 3.0445168018341064,
       "step": 30
     },
     {
       "epoch": 0.64,
-      "grad_norm": 1.78406972696896,
       "learning_rate": 2e-07,
-      "logits/generated": -3.309864044189453,
-      "logits/real": -2.4957680702209473,
-      "logps/generated": -344.9488525390625,
-      "logps/real": -93.11787414550781,
-      "loss": 0.0814,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -10.671560287475586,
-      "rewards/margins": 14.303810119628906,
-      "rewards/real": 3.632251262664795,
       "step": 40
     },
     {
       "epoch": 0.8,
-      "grad_norm": 0.918331726023657,
       "learning_rate": 1.0909090909090908e-07,
-      "logits/generated": -3.2701480388641357,
-      "logits/real": -2.330775737762451,
-      "logps/generated": -352.88299560546875,
-      "logps/real": -85.17743682861328,
-      "loss": 0.0762,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -10.926799774169922,
-      "rewards/margins": 14.398449897766113,
-      "rewards/real": 3.4716498851776123,
       "step": 50
     },
     {
       "epoch": 0.96,
-      "grad_norm": 0.8334083410423753,
       "learning_rate": 1.818181818181818e-08,
-      "logits/generated": -3.3187618255615234,
-      "logits/real": -2.187263011932373,
-      "logps/generated": -343.95556640625,
-      "logps/real": -66.73863983154297,
-      "loss": 0.0748,
       "rewards/accuracies": 1.0,
-      "rewards/generated": -10.801365852355957,
-      "rewards/margins": 14.124551773071289,
-      "rewards/real": 3.3231849670410156,
       "step": 60
     },
     {
       "epoch": 0.992,
       "step": 62,
       "total_flos": 0.0,
-      "train_loss": 0.11663837057928886,
-      "train_runtime": 749.8498,
-      "train_samples_per_second": 2.666,
-      "train_steps_per_second": 0.083
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.016,
+      "grad_norm": 346.3062021602437,
       "learning_rate": 7.142857142857142e-08,
+      "logits/generated": -3.196486711502075,
+      "logits/real": -2.3527207374572754,
+      "logps/generated": -231.1735382080078,
+      "logps/real": -99.6369400024414,
+      "loss": 0.7803,
       "rewards/accuracies": 0.0,
       "rewards/generated": 0.0,
       "rewards/margins": 0.0,
     },
     {
       "epoch": 0.16,
+      "grad_norm": 2.4299127951132924,
       "learning_rate": 4.727272727272727e-07,
+      "logits/generated": -3.081599235534668,
+      "logits/real": -2.270655870437622,
+      "logps/generated": -280.790771484375,
+      "logps/real": -82.0130844116211,
+      "loss": 0.2552,
       "rewards/accuracies": 0.8888888955116272,
+      "rewards/generated": -4.4418439865112305,
+      "rewards/margins": 5.652818202972412,
+      "rewards/real": 1.2109735012054443,
       "step": 10
     },
     {
       "epoch": 0.32,
+      "grad_norm": 0.9060775786875579,
       "learning_rate": 3.818181818181818e-07,
+      "logits/generated": -3.208840847015381,
+      "logits/real": -2.1548514366149902,
+      "logps/generated": -326.5088195800781,
+      "logps/real": -72.36115264892578,
+      "loss": 0.0712,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -9.6439790725708,
+      "rewards/margins": 12.68847370147705,
+      "rewards/real": 3.044494867324829,
       "step": 20
     },
     {
       "epoch": 0.48,
+      "grad_norm": 0.9746129145559742,
       "learning_rate": 2.909090909090909e-07,
+      "logits/generated": -3.225053071975708,
+      "logits/real": -2.0585813522338867,
+      "logps/generated": -353.51434326171875,
+      "logps/real": -57.8585090637207,
+      "loss": 0.0641,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -11.199175834655762,
+      "rewards/margins": 14.336624145507812,
+      "rewards/real": 3.137446165084839,
       "step": 30
     },
     {
       "epoch": 0.64,
+      "grad_norm": 1.114683085793999,
       "learning_rate": 2e-07,
+      "logits/generated": -3.1570346355438232,
+      "logits/real": -2.1495680809020996,
+      "logps/generated": -325.97515869140625,
+      "logps/real": -78.28927612304688,
+      "loss": 0.075,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -10.375910758972168,
+      "rewards/margins": 13.806567192077637,
+      "rewards/real": 3.4306564331054688,
       "step": 40
     },
     {
       "epoch": 0.8,
+      "grad_norm": 0.7978164295236632,
       "learning_rate": 1.0909090909090908e-07,
+      "logits/generated": -3.2370517253875732,
+      "logits/real": -2.0745859146118164,
+      "logps/generated": -342.4796447753906,
+      "logps/real": -65.09725189208984,
+      "loss": 0.0641,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -10.8725004196167,
+      "rewards/margins": 14.377031326293945,
+      "rewards/real": 3.5045323371887207,
       "step": 50
     },
     {
       "epoch": 0.96,
+      "grad_norm": 0.7374328187221965,
       "learning_rate": 1.818181818181818e-08,
+      "logits/generated": -3.1993775367736816,
+      "logits/real": -2.025631904602051,
+      "logps/generated": -341.24053955078125,
+      "logps/real": -61.965667724609375,
+      "loss": 0.0622,
       "rewards/accuracies": 1.0,
+      "rewards/generated": -11.041067123413086,
+      "rewards/margins": 14.699417114257812,
+      "rewards/real": 3.6583499908447266,
       "step": 60
     },
     {
       "epoch": 0.992,
       "step": 62,
       "total_flos": 0.0,
+      "train_loss": 0.10689828472752724,
+      "train_runtime": 796.2858,
+      "train_samples_per_second": 2.51,
+      "train_steps_per_second": 0.078
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fdd5b8d1c52afaee4e300c7319d3b6fa0725347c935b0ac2dc3f707fa843493
 size 6456

 version https://git-lfs.github.com/spec/v1
+oid sha256:f66cc83367e99f19f41dca5c4ee324c54160a387192d3d367a0aa5a8885cd12c
 size 6456