Training in progress, step 1300

Browse files

Files changed (8) hide show

README.md +15 -27
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +15 -15
eval_results.json +11 -11
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -20,15 +20,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4837
-- Rewards/chosen: 0.1032
-- Rewards/rejected: 0.0249
-- Rewards/accuracies: 0.6034
-- Rewards/margins: 0.0783
-- Logps/rejected: -37.4336
-- Logps/chosen: -33.6906
-- Logits/rejected: -2.1139
-- Logits/chosen: -2.1185
 ## Model description
@@ -57,27 +57,15 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.4916        | 0.26  | 100  | -2.2338       | -2.2290         | -33.8981     | -37.4099       | 0.4981          | 0.5453             | 0.0409         | 0.0089          | 0.0320           |
-| 0.4782        | 0.52  | 200  | -2.2331       | -2.2283         | -33.7707     | -37.3050       | 0.4962          | 0.5718             | 0.0792         | 0.0157          | 0.0635           |
-| 0.4507        | 0.78  | 300  | -2.2302       | -2.2254         | -33.7484     | -37.2887       | 0.4956          | 0.5544             | 0.0859         | 0.0175          | 0.0684           |
-| 0.4139        | 1.04  | 400  | 0.4945        | 0.1190          | 0.0965       | 0.6063         | 0.0225          | -37.1951           | -33.6380       | -2.2093         | -2.2142          |
-| 0.3771        | 1.3   | 500  | 0.4937        | 0.1247          | 0.0982       | 0.5714         | 0.0264          | -37.1892           | -33.6190       | -2.1773         | -2.1820          |
-| 0.387         | 1.56  | 600  | 0.4881        | 0.1306          | 0.0798       | 0.5880         | 0.0508          | -37.2506           | -33.5992       | -2.1573         | -2.1621          |
-| 0.3565        | 1.82  | 700  | 0.4888        | 0.1084          | 0.0584       | 0.5710         | 0.0499          | -37.3218           | -33.6734       | -2.1444         | -2.1491          |
-| 0.3115        | 2.08  | 800  | 0.4843        | 0.1179          | 0.0481       | 0.6063         | 0.0698          | -37.3561           | -33.6414       | -2.1386         | -2.1433          |
-| 0.2849        | 2.34  | 900  | 0.4852        | 0.1036          | 0.0344       | 0.5826         | 0.0692          | -37.4021           | -33.6894       | -2.1241         | -2.1288          |
-| 0.336         | 2.6   | 1000 | 0.4836        | 0.1076          | 0.0285       | 0.6030         | 0.0791          | -37.4216           | -33.6757       | -2.1167         | -2.1214          |
-| 0.3426        | 2.86  | 1100 | 0.4845        | 0.0998          | 0.0255       | 0.6005         | 0.0743          | -37.4316           | -33.7020       | -2.1152         | -2.1199          |
-| 0.2883        | 3.12  | 1200 | 0.4838        | 0.1007          | 0.0221       | 0.6092         | 0.0785          | -37.4428           | -33.6989       | -2.1139         | -2.1186          |
-| 0.2779        | 3.38  | 1300 | 0.4829        | 0.1028          | 0.0215       | 0.6005         | 0.0813          | -37.4450           | -33.6919       | -2.1139         | -2.1185          |
-| 0.3113        | 3.64  | 1400 | 0.4838        | 0.1005          | 0.0222       | 0.5972         | 0.0784          | -37.4427           | -33.6995       | -2.1142         | -2.1189          |
-| 0.2932        | 3.9   | 1500 | 0.4838        | 0.1004          | 0.0226       | 0.6067         | 0.0779          | -37.4414           | -33.6997       | -2.1137         | -2.1184          |
 ### Framework versions

 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.7902
+- Rewards/chosen: -0.0060
+- Rewards/rejected: -0.0171
+- Rewards/accuracies: 0.5602
+- Rewards/margins: 0.0111
+- Logps/rejected: -37.5735
+- Logps/chosen: -34.0545
+- Logits/rejected: -2.2247
+- Logits/chosen: -2.2295
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 2.59          | 0.26  | 100  | 2.8958          | 0.0029         | 0.0052           | 0.4730             | -0.0024         | -37.4993       | -34.0250     | -2.2305         | -2.2353       |
+| 2.2795        | 0.52  | 200  | 2.8012          | -0.0060        | -0.0145          | 0.5278             | 0.0085          | -37.5651       | -34.0545     | -2.2290         | -2.2339       |
+| 1.7902        | 0.78  | 300  | 2.7585          | -0.0030        | -0.0167          | 0.5748             | 0.0137          | -37.5724       | -34.0446     | -2.2245         | -2.2294       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
-    "gate_proj",
     "up_proj",
     "o_proj",
     "down_proj",
-    "k_proj",
-    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "k_proj",
     "up_proj",
     "o_proj",
+    "v_proj",
     "down_proj",
+    "q_proj",
+    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e4a47b71a074a3e66b22f474a623b02f20b5f4187dcf42a1804d77acb760541a
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:2803ff3a80b6c8d101cb2d67087ecd60ca0a5374db81896b8a2c14cc0e814a25
 size 176183216

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.1185147762298584,
-    "eval_logits/rejected": -2.1138522624969482,
-    "eval_logps/chosen": -33.690555572509766,
-    "eval_logps/rejected": -37.433555603027344,
-    "eval_loss": 0.4836578071117401,
-    "eval_rewards/accuracies": 0.6034052968025208,
-    "eval_rewards/chosen": 0.10319855809211731,
-    "eval_rewards/margins": 0.07827980816364288,
-    "eval_rewards/rejected": 0.02491873875260353,
-    "eval_runtime": 145.7738,
     "eval_samples": 343,
     "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295,
-    "train_loss": 0.2714830153948301,
-    "train_runtime": 10800.8138,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2295007705688477,
+    "eval_logits/rejected": -2.2246556282043457,
+    "eval_logps/chosen": -34.054466247558594,
+    "eval_logps/rejected": -37.57353973388672,
+    "eval_loss": 2.790188789367676,
+    "eval_rewards/accuracies": 0.560215950012207,
+    "eval_rewards/chosen": -0.0059735761024057865,
+    "eval_rewards/margins": 0.011101600714027882,
+    "eval_rewards/rejected": -0.017075177282094955,
+    "eval_runtime": 145.7539,
     "eval_samples": 343,
     "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295,
+    "train_loss": 2.3457992528940177,
+    "train_runtime": 3250.6949,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

eval_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.1185147762298584,
-    "eval_logits/rejected": -2.1138522624969482,
-    "eval_logps/chosen": -33.690555572509766,
-    "eval_logps/rejected": -37.433555603027344,
-    "eval_loss": 0.4836578071117401,
-    "eval_rewards/accuracies": 0.6034052968025208,
-    "eval_rewards/chosen": 0.10319855809211731,
-    "eval_rewards/margins": 0.07827980816364288,
-    "eval_rewards/rejected": 0.02491873875260353,
-    "eval_runtime": 145.7738,
     "eval_samples": 343,
     "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2295007705688477,
+    "eval_logits/rejected": -2.2246556282043457,
+    "eval_logps/chosen": -34.054466247558594,
+    "eval_logps/rejected": -37.57353973388672,
+    "eval_loss": 2.790188789367676,
+    "eval_rewards/accuracies": 0.560215950012207,
+    "eval_rewards/chosen": -0.0059735761024057865,
+    "eval_rewards/margins": 0.011101600714027882,
+    "eval_rewards/rejected": -0.017075177282094955,
+    "eval_runtime": 145.7539,
     "eval_samples": 343,
     "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.295

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.2714830153948301,
-    "train_runtime": 10800.8138,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "train_loss": 2.3457992528940177,
+    "train_runtime": 3250.6949,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6796dc0cd2ca464da4b2c86fd637500a53c2e219bb1c345d39119ad06d09b09e
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc3e8127207cbcb9bf61a05f5206c35cfece8824544474dcbb3c0ba691e632f8
 size 4984