Training in progress, step 600

Browse files

Files changed (8) hide show

README.md +15 -27
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +16 -16
eval_results.json +12 -12
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -20,15 +20,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6751
-- Rewards/chosen: -0.1961
-- Rewards/rejected: -0.2675
-- Rewards/accuracies: 0.5918
-- Rewards/margins: 0.0713
-- Logps/rejected: -38.8539
-- Logps/chosen: -35.0152
-- Logits/rejected: -1.9911
-- Logits/chosen: -1.9956
 ## Model description
@@ -57,27 +57,15 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.6813        | 0.26  | 100  | -2.2319       | -2.2270         | -34.0295     | -37.5345       | 0.6915          | 0.5220             | 0.0010         | 0.0046          | -0.0036          |
-| 0.6632        | 0.52  | 200  | -2.2288       | -2.2240         | -34.0514     | -37.5852       | 0.6888          | 0.5660             | -0.0034        | 0.0103          | -0.0137          |
-| 0.6327        | 0.78  | 300  | -2.2262       | -2.2214         | -34.0940     | -37.6097       | 0.6909          | 0.4950             | -0.0119        | 0.0067          | -0.0186          |
-| 0.581         | 1.04  | 400  | 0.6878        | -0.0220         | -0.0363      | 0.5714         | 0.0143          | -37.6981           | -34.1446       | -2.1968         | -2.2017          |
-| 0.5252        | 1.3   | 500  | 0.6833        | -0.0468         | -0.0746      | 0.5801         | 0.0277          | -37.8894           | -34.2686       | -2.1386         | -2.1434          |
-| 0.5389        | 1.56  | 600  | 0.6771        | -0.0859         | -0.1320      | 0.5714         | 0.0462          | -38.1768           | -34.4638       | -2.0901         | -2.0949          |
-| 0.5239        | 1.82  | 700  | 0.6812        | -0.1285         | -0.1728      | 0.5627         | 0.0443          | -38.3806           | -34.6768       | -2.0609         | -2.0656          |
-| 0.4527        | 2.08  | 800  | 0.6754        | -0.1347         | -0.1932      | 0.5627         | 0.0585          | -38.4827           | -34.7079       | -2.0466         | -2.0512          |
-| 0.4042        | 2.34  | 900  | 0.6782        | -0.1674         | -0.2278      | 0.5656         | 0.0604          | -38.6554           | -34.8714       | -2.0180         | -2.0226          |
-| 0.4706        | 2.6   | 1000 | 0.6768        | -0.1887         | -0.2552      | 0.5772         | 0.0664          | -38.7926           | -34.9783       | -1.9986         | -2.0031          |
-| 0.4851        | 2.86  | 1100 | 0.6753        | -0.1952         | -0.2659      | 0.5772         | 0.0707          | -38.8462           | -35.0107       | -1.9926         | -1.9972          |
-| 0.4079        | 3.12  | 1200 | 0.6757        | -0.1976         | -0.2675      | 0.5685         | 0.0699          | -38.8539           | -35.0224       | -1.9914         | -1.9960          |
-| 0.3644        | 3.38  | 1300 | 0.6762        | -0.1974         | -0.2668      | 0.5714         | 0.0694          | -38.8508           | -35.0218       | -1.9907         | -1.9952          |
-| 0.4147        | 3.64  | 1400 | 0.6765        | -0.1982         | -0.2664      | 0.5831         | 0.0682          | -38.8488           | -35.0255       | -1.9909         | -1.9955          |
-| 0.4021        | 3.9   | 1500 | 0.6767        | -0.1985         | -0.2668      | 0.5714         | 0.0683          | -38.8505           | -35.0269       | -1.9910         | -1.9955          |
 ### Framework versions

 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4975
+- Rewards/chosen: 0.0550
+- Rewards/rejected: 0.0448
+- Rewards/accuracies: 0.5395
+- Rewards/margins: 0.0102
+- Logps/rejected: -37.2926
+- Logps/chosen: -33.7597
+- Logits/rejected: -2.2271
+- Logits/chosen: -2.2319
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.4947        | 0.26  | 100  | 0.4994          | 0.0239         | 0.0208           | 0.5216             | 0.0031          | -37.4126       | -33.9151     | -2.2299         | -2.2348       |
+| 0.4825        | 0.52  | 200  | 0.4974          | 0.0511         | 0.0397           | 0.5544             | 0.0113          | -37.3179       | -33.7792     | -2.2274         | -2.2322       |
+| 0.4669        | 0.78  | 300  | 0.4980          | 0.0533         | 0.0449           | 0.5158             | 0.0084          | -37.2920       | -33.7681     | -2.2264         | -2.2312       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "up_proj",
-    "k_proj",
     "q_proj",
-    "down_proj",
     "gate_proj",
-    "o_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "v_proj",
+    "o_proj",
     "q_proj",
     "gate_proj",
+    "down_proj",
+    "k_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2e2d3dde6ac3327fece9a3798ca418892e5ae3ef423d9857a354a7c84510e1f
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bb2dca7ba6f44037dd1a890cd8cebfa6c5ba50248941ac541cb41e6628ea1cd
 size 176183216

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -1.9956191778182983,
-    "eval_logits/rejected": -1.991063117980957,
-    "eval_logps/chosen": -35.015167236328125,
-    "eval_logps/rejected": -38.8538703918457,
-    "eval_loss": 0.6751248240470886,
-    "eval_rewards/accuracies": 0.5917773842811584,
-    "eval_rewards/chosen": -0.19612376391887665,
-    "eval_rewards/margins": 0.07132655382156372,
-    "eval_rewards/rejected": -0.26745033264160156,
-    "eval_runtime": 145.7429,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295,
-    "train_loss": 0.3823247471413055,
-    "train_runtime": 10805.5642,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2319114208221436,
+    "eval_logits/rejected": -2.2271130084991455,
+    "eval_logps/chosen": -33.75971984863281,
+    "eval_logps/rejected": -37.29259490966797,
+    "eval_loss": 0.49754369258880615,
+    "eval_rewards/accuracies": 0.5394518375396729,
+    "eval_rewards/chosen": 0.05496572330594063,
+    "eval_rewards/margins": 0.010160263627767563,
+    "eval_rewards/rejected": 0.044805459678173065,
+    "eval_runtime": 145.6941,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295,
+    "train_loss": 0.4876757522682091,
+    "train_runtime": 3250.1859,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -1.9956191778182983,
-    "eval_logits/rejected": -1.991063117980957,
-    "eval_logps/chosen": -35.015167236328125,
-    "eval_logps/rejected": -38.8538703918457,
-    "eval_loss": 0.6751248240470886,
-    "eval_rewards/accuracies": 0.5917773842811584,
-    "eval_rewards/chosen": -0.19612376391887665,
-    "eval_rewards/margins": 0.07132655382156372,
-    "eval_rewards/rejected": -0.26745033264160156,
-    "eval_runtime": 145.7429,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2319114208221436,
+    "eval_logits/rejected": -2.2271130084991455,
+    "eval_logps/chosen": -33.75971984863281,
+    "eval_logps/rejected": -37.29259490966797,
+    "eval_loss": 0.49754369258880615,
+    "eval_rewards/accuracies": 0.5394518375396729,
+    "eval_rewards/chosen": 0.05496572330594063,
+    "eval_rewards/margins": 0.010160263627767563,
+    "eval_rewards/rejected": 0.044805459678173065,
+    "eval_runtime": 145.6941,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.3823247471413055,
-    "train_runtime": 10805.5642,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.4876757522682091,
+    "train_runtime": 3250.1859,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c288dcbf28ede7cf49e7ecb2979521d825f0f03f89c2659f96cf853b83096653
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c326ac89e4c50e7bc12176a6c925130ebcfcfb2364bc0120a8ef9c18dc894821
 size 4984