Training in progress, step 400

Browse files

Files changed (8) hide show

README.md +15 -27
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +16 -16
eval_results.json +12 -12
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -20,15 +20,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.6784
-- Rewards/chosen: -0.2292
-- Rewards/rejected: -0.3691
-- Rewards/accuracies: 0.5714
-- Rewards/margins: 0.1398
-- Logps/rejected: -38.1317
-- Logps/chosen: -34.4166
-- Logits/rejected: -2.1013
-- Logits/chosen: -2.1060
 ## Model description
@@ -57,27 +57,15 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.6595        | 0.26  | 100  | -2.2336       | -2.2287         | -34.0063     | -37.5150       | 0.6900          | 0.5253             | 0.0170         | 0.0160          | 0.0010           |
-| 0.6189        | 0.52  | 200  | -2.2307       | -2.2259         | -34.0167     | -37.5344       | 0.6895          | 0.5341             | 0.0107         | 0.0213          | -0.0106          |
-| 0.5582        | 0.78  | 300  | -2.2269       | -2.2221         | -34.0353     | -37.5627       | 0.6872          | 0.5598             | -0.0004        | 0.0272          | -0.0276          |
-| 0.4405        | 1.04  | 400  | 0.6790        | 0.0114          | -0.0399      | 0.5714         | 0.0513          | -37.5832           | -34.0156       | -2.2017         | -2.2066          |
-| 0.3628        | 1.3   | 500  | 0.6817        | -0.0615         | -0.1311      | 0.5743         | 0.0696          | -37.7351           | -34.1370       | -2.1583         | -2.1631          |
-| 0.3765        | 1.56  | 600  | 0.6655        | -0.0823         | -0.2023      | 0.6038         | 0.1201          | -37.8538           | -34.1716       | -2.1403         | -2.1450          |
-| 0.3979        | 1.82  | 700  | 0.6831        | -0.1484         | -0.2490      | 0.5569         | 0.1006          | -37.9315           | -34.2819       | -2.1358         | -2.1405          |
-| 0.2521        | 2.08  | 800  | 0.6749        | -0.1425         | -0.2655      | 0.5889         | 0.1230          | -37.9591           | -34.2720       | -2.1299         | -2.1346          |
-| 0.209         | 2.34  | 900  | 0.6766        | -0.1824         | -0.3167      | 0.5889         | 0.1344          | -38.0445           | -34.3385       | -2.1150         | -2.1197          |
-| 0.2724        | 2.6   | 1000 | 0.6788        | -0.2111         | -0.3496      | 0.5860         | 0.1386          | -38.0994           | -34.3864       | -2.1061         | -2.1108          |
-| 0.2927        | 2.86  | 1100 | 0.6755        | -0.2205         | -0.3683      | 0.5947         | 0.1478          | -38.1305           | -34.4021       | -2.1021         | -2.1068          |
-| 0.2152        | 3.12  | 1200 | 0.6774        | -0.2277         | -0.3699      | 0.5772         | 0.1421          | -38.1331           | -34.4141       | -2.1017         | -2.1064          |
-| 0.1618        | 3.38  | 1300 | 0.6745        | -0.2219         | -0.3688      | 0.5889         | 0.1469          | -38.1312           | -34.4043       | -2.1011         | -2.1058          |
-| 0.216         | 3.64  | 1400 | 0.6788        | -0.2276         | -0.3654      | 0.5801         | 0.1377          | -38.1255           | -34.4140       | -2.1012         | -2.1059          |
-| 0.2086        | 3.9   | 1500 | 0.6755        | -0.2256         | -0.3710      | 0.5831         | 0.1454          | -38.1350           | -34.4106       | -2.1010         | -2.1057          |
 ### Framework versions

 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.4947
+- Rewards/chosen: 0.1656
+- Rewards/rejected: 0.1437
+- Rewards/accuracies: 0.5365
+- Rewards/margins: 0.0219
+- Logps/rejected: -37.2771
+- Logps/chosen: -33.7585
+- Logits/rejected: -2.2259
+- Logits/chosen: -2.2307
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.4799        | 0.26  | 100  | 0.4987          | 0.0790         | 0.0734           | 0.5104             | 0.0056          | -37.3943       | -33.9029     | -2.2301         | -2.2349       |
+| 0.4548        | 0.52  | 200  | 0.4956          | 0.1590         | 0.1392           | 0.5341             | 0.0198          | -37.2846       | -33.7696     | -2.2287         | -2.2335       |
+| 0.41          | 0.78  | 300  | 0.4937          | 0.1639         | 0.1391           | 0.5361             | 0.0248          | -37.2848       | -33.7614     | -2.2261         | -2.2309       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj",
-    "down_proj",
-    "o_proj",
     "gate_proj",
     "up_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
     "up_proj",
+    "k_proj",
+    "down_proj",
+    "o_proj",
+    "v_proj",
+    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c534c4a142155a731f22ad921f85e07479e4c79eeee27a41bba786b13f044f91
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:b63c985a10b670eab11934ea00b012922b6d00399a977ccb4b3fb0946a95f2ef
 size 176183216

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.106013536453247,
-    "eval_logits/rejected": -2.10129714012146,
-    "eval_logps/chosen": -34.416629791259766,
-    "eval_logps/rejected": -38.131744384765625,
-    "eval_loss": 0.67835533618927,
-    "eval_rewards/accuracies": 0.5714285373687744,
-    "eval_rewards/chosen": -0.22924686968326569,
-    "eval_rewards/margins": 0.13982589542865753,
-    "eval_rewards/rejected": -0.36907273530960083,
-    "eval_runtime": 145.7883,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295,
-    "train_loss": 0.24285796547864938,
-    "train_runtime": 10807.9192,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.142
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.230694055557251,
+    "eval_logits/rejected": -2.225895643234253,
+    "eval_logps/chosen": -33.75852966308594,
+    "eval_logps/rejected": -37.27712631225586,
+    "eval_loss": 0.4946732223033905,
+    "eval_rewards/accuracies": 0.5365448594093323,
+    "eval_rewards/chosen": 0.16561271250247955,
+    "eval_rewards/margins": 0.02191758342087269,
+    "eval_rewards/rejected": 0.14369513094425201,
+    "eval_runtime": 145.7007,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295,
+    "train_loss": 0.46439293204963983,
+    "train_runtime": 3253.2697,
     "train_samples": 3079,
+    "train_samples_per_second": 0.946,
+    "train_steps_per_second": 0.118
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.106013536453247,
-    "eval_logits/rejected": -2.10129714012146,
-    "eval_logps/chosen": -34.416629791259766,
-    "eval_logps/rejected": -38.131744384765625,
-    "eval_loss": 0.67835533618927,
-    "eval_rewards/accuracies": 0.5714285373687744,
-    "eval_rewards/chosen": -0.22924686968326569,
-    "eval_rewards/margins": 0.13982589542865753,
-    "eval_rewards/rejected": -0.36907273530960083,
-    "eval_runtime": 145.7883,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.230694055557251,
+    "eval_logits/rejected": -2.225895643234253,
+    "eval_logps/chosen": -33.75852966308594,
+    "eval_logps/rejected": -37.27712631225586,
+    "eval_loss": 0.4946732223033905,
+    "eval_rewards/accuracies": 0.5365448594093323,
+    "eval_rewards/chosen": 0.16561271250247955,
+    "eval_rewards/margins": 0.02191758342087269,
+    "eval_rewards/rejected": 0.14369513094425201,
+    "eval_runtime": 145.7007,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.24285796547864938,
-    "train_runtime": 10807.9192,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.142
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.46439293204963983,
+    "train_runtime": 3253.2697,
     "train_samples": 3079,
+    "train_samples_per_second": 0.946,
+    "train_steps_per_second": 0.118
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5af63d4badccbe780519fbb021e605570213cb7c051d9d1499f6c7ffb571e837
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:a61cf4921e25061d4673043facf2e8060cc927f0981742727fad132386961410
 size 4984