Training in progress, step 500

Browse files

Files changed (8) hide show

README.md +15 -27
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +16 -16
eval_results.json +12 -12
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -20,15 +20,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4730
-- Rewards/chosen: 0.2464
-- Rewards/rejected: 0.1175
-- Rewards/accuracies: 0.5947
-- Rewards/margins: 0.1288
-- Logps/rejected: -37.3207
-- Logps/chosen: -33.6239
-- Logits/rejected: -2.1470
-- Logits/chosen: -2.1517
 ## Model description
@@ -57,27 +57,15 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.4799        | 0.26  | 100  | -2.2349       | -2.2301         | -33.9029     | -37.3943       | 0.4987          | 0.5104             | 0.0790         | 0.0056          | 0.0734           |
-| 0.4548        | 0.52  | 200  | -2.2335       | -2.2287         | -33.7696     | -37.2846       | 0.4956          | 0.5341             | 0.1590         | 0.0198          | 0.1392           |
-| 0.41          | 0.78  | 300  | -2.2309       | -2.2261         | -33.7614     | -37.2848       | 0.4937          | 0.5361             | 0.1639         | 0.0248          | 0.1391           |
-| 0.3497        | 1.04  | 400  | 0.4927        | 0.2171          | 0.1863       | 0.5652         | 0.0309          | -37.2062           | -33.6727       | -2.2113         | -2.2162          |
-| 0.2906        | 1.3   | 500  | 0.4870        | 0.2484          | 0.1921       | 0.5922         | 0.0563          | -37.1964           | -33.6205       | -2.1834         | -2.1881          |
-| 0.3014        | 1.56  | 600  | 0.4796        | 0.2630          | 0.1719       | 0.5797         | 0.0911          | -37.2301           | -33.5962       | -2.1694         | -2.1741          |
-| 0.2776        | 1.82  | 700  | 0.4825        | 0.2341          | 0.1554       | 0.5768         | 0.0787          | -37.2576           | -33.6444       | -2.1625         | -2.1672          |
-| 0.201         | 2.08  | 800  | 0.4766        | 0.2639          | 0.1595       | 0.5914         | 0.1043          | -37.2507           | -33.5948       | -2.1641         | -2.1689          |
-| 0.1721        | 2.34  | 900  | 0.4749        | 0.2446          | 0.1298       | 0.5860         | 0.1148          | -37.3003           | -33.6269       | -2.1516         | -2.1563          |
-| 0.2259        | 2.6   | 1000 | 0.4736        | 0.2483          | 0.1257       | 0.5860         | 0.1226          | -37.3072           | -33.6207       | -2.1481         | -2.1528          |
-| 0.2405        | 2.86  | 1100 | 0.4740        | 0.2438          | 0.1229       | 0.5860         | 0.1209          | -37.3118           | -33.6283       | -2.1475         | -2.1522          |
-| 0.1793        | 3.12  | 1200 | 0.4746        | 0.2441          | 0.1249       | 0.5685         | 0.1192          | -37.3085           | -33.6277       | -2.1469         | -2.1516          |
-| 0.1633        | 3.38  | 1300 | 0.4744        | 0.2433          | 0.1235       | 0.6009         | 0.1198          | -37.3107           | -33.6290       | -2.1471         | -2.1518          |
-| 0.202         | 3.64  | 1400 | 0.4748        | 0.2450          | 0.1279       | 0.5831         | 0.1170          | -37.3034           | -33.6263       | -2.1472         | -2.1519          |
-| 0.1889        | 3.9   | 1500 | 0.4727        | 0.2480          | 0.1188       | 0.6005         | 0.1292          | -37.3186           | -33.6212       | -2.1470         | -2.1517          |
 ### Framework versions

 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.7598
+- Rewards/chosen: -0.0165
+- Rewards/rejected: -0.0300
+- Rewards/accuracies: 0.5307
+- Rewards/margins: 0.0135
+- Logps/rejected: -37.5666
+- Logps/chosen: -34.0620
+- Logits/rejected: -2.2283
+- Logits/chosen: -2.2332
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.5903        | 0.26  | 100  | 0.7450          | 0.0123         | 0.0047           | 0.5241             | 0.0075          | -37.5087       | -34.0141     | -2.2318         | -2.2366       |
+| 0.59          | 0.52  | 200  | 0.7500          | -0.0208        | -0.0352          | 0.5365             | 0.0144          | -37.5752       | -34.0691     | -2.2284         | -2.2332       |
+| 0.3871        | 0.78  | 300  | 0.7655          | -0.0166        | -0.0295          | 0.5071             | 0.0129          | -37.5657       | -34.0622     | -2.2285         | -2.2333       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
     "up_proj",
     "k_proj",
-    "down_proj",
-    "o_proj",
-    "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "down_proj",
     "up_proj",
+    "gate_proj",
+    "q_proj",
     "k_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:055ffd1fcf3c15abaeb1e658da1ca3ca33d4856bb69ba7776358c3487a3e5b13
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:647a30127ff87e6873207e0e6886687457d6421bb849937f43670e0dc30d2513
 size 176183216

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.1517372131347656,
-    "eval_logits/rejected": -2.1470396518707275,
-    "eval_logps/chosen": -33.62392044067383,
-    "eval_logps/rejected": -37.32072830200195,
-    "eval_loss": 0.47301676869392395,
-    "eval_rewards/accuracies": 0.594684362411499,
-    "eval_rewards/chosen": 0.24637830257415771,
-    "eval_rewards/margins": 0.1288420557975769,
-    "eval_rewards/rejected": 0.11753623187541962,
-    "eval_runtime": 145.7991,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295,
-    "train_loss": 0.19402528018146367,
-    "train_runtime": 10806.8766,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2331926822662354,
+    "eval_logits/rejected": -2.2283315658569336,
+    "eval_logps/chosen": -34.061973571777344,
+    "eval_logps/rejected": -37.566593170166016,
+    "eval_loss": 0.7597638368606567,
+    "eval_rewards/accuracies": 0.5307309031486511,
+    "eval_rewards/chosen": -0.016451681032776833,
+    "eval_rewards/margins": 0.013532036915421486,
+    "eval_rewards/rejected": -0.029983719810843468,
+    "eval_runtime": 145.5395,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.357,
     "eval_steps_per_second": 0.295,
+    "train_loss": 0.5965218513042896,
+    "train_runtime": 3252.2803,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.1517372131347656,
-    "eval_logits/rejected": -2.1470396518707275,
-    "eval_logps/chosen": -33.62392044067383,
-    "eval_logps/rejected": -37.32072830200195,
-    "eval_loss": 0.47301676869392395,
-    "eval_rewards/accuracies": 0.594684362411499,
-    "eval_rewards/chosen": 0.24637830257415771,
-    "eval_rewards/margins": 0.1288420557975769,
-    "eval_rewards/rejected": 0.11753623187541962,
-    "eval_runtime": 145.7991,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2331926822662354,
+    "eval_logits/rejected": -2.2283315658569336,
+    "eval_logps/chosen": -34.061973571777344,
+    "eval_logps/rejected": -37.566593170166016,
+    "eval_loss": 0.7597638368606567,
+    "eval_rewards/accuracies": 0.5307309031486511,
+    "eval_rewards/chosen": -0.016451681032776833,
+    "eval_rewards/margins": 0.013532036915421486,
+    "eval_rewards/rejected": -0.029983719810843468,
+    "eval_runtime": 145.5395,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.357,
     "eval_steps_per_second": 0.295
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.19402528018146367,
-    "train_runtime": 10806.8766,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.5965218513042896,
+    "train_runtime": 3252.2803,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a61cf4921e25061d4673043facf2e8060cc927f0981742727fad132386961410
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:eacae65050e9f803beda9fe6763ea7afd8ff2656b8fcda6cbf8438d16e92bb88
 size 4984