Training in progress, step 500

Browse files

Files changed (8) hide show

README.md +15 -27
adapter_config.json +4 -4
adapter_model.safetensors +1 -1
all_results.json +16 -16
eval_results.json +12 -12
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -20,15 +20,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.4946
-- Rewards/chosen: 0.0246
-- Rewards/rejected: -0.0031
-- Rewards/accuracies: 0.5922
-- Rewards/margins: 0.0278
-- Logps/rejected: -37.5481
-- Logps/chosen: -33.7882
-- Logits/rejected: -2.0897
-- Logits/chosen: -2.0944
 ## Model description
@@ -57,27 +57,15 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.4975        | 0.26  | 100  | -2.2364       | -2.2316         | -33.8905     | -37.4088       | 0.4992          | 0.5307             | 0.0144         | 0.0036          | 0.0108           |
-| 0.4925        | 0.52  | 200  | -2.2354       | -2.2306         | -33.7318     | -37.2691       | 0.4987          | 0.5718             | 0.0303         | 0.0055          | 0.0248           |
-| 0.4825        | 0.78  | 300  | -2.2326       | -2.2278         | -33.7455     | -37.2678       | 0.4990          | 0.5453             | 0.0289         | 0.0040          | 0.0249           |
-| 0.4682        | 1.04  | 400  | 0.4981        | 0.0406          | 0.0330       | 0.5914         | 0.0076          | -37.1866           | -33.6285       | -2.2114         | -2.2163          |
-| 0.4532        | 1.3   | 500  | 0.4976        | 0.0426          | 0.0327       | 0.5777         | 0.0099          | -37.1895           | -33.6082       | -2.1796         | -2.1844          |
-| 0.4615        | 1.56  | 600  | 0.4960        | 0.0424          | 0.0253       | 0.5764         | 0.0172          | -37.2639           | -33.6102       | -2.1513         | -2.1561          |
-| 0.4447        | 1.82  | 700  | 0.4962        | 0.0323          | 0.0156       | 0.5943         | 0.0167          | -37.3605           | -33.7117       | -2.1360         | -2.1407          |
-| 0.4271        | 2.08  | 800  | 0.4951        | 0.0345          | 0.0124       | 0.5972         | 0.0221          | -37.3928           | -33.6895       | -2.1274         | -2.1322          |
-| 0.4126        | 2.34  | 900  | 0.4949        | 0.0293          | 0.0043       | 0.5943         | 0.0250          | -37.4733           | -33.7411       | -2.1074         | -2.1121          |
-| 0.4408        | 2.6   | 1000 | 0.4944        | 0.0272          | -0.0013      | 0.6092         | 0.0284          | -37.5294           | -33.7629       | -2.0966         | -2.1013          |
-| 0.4419        | 2.86  | 1100 | 0.4947        | 0.0250          | -0.0032      | 0.6213         | 0.0282          | -37.5488           | -33.7850       | -2.0910         | -2.0956          |
-| 0.4146        | 3.12  | 1200 | 0.4944        | 0.0258          | -0.0031      | 0.6038         | 0.0289          | -37.5475           | -33.7762       | -2.0897         | -2.0944          |
-| 0.4103        | 3.38  | 1300 | 0.4943        | 0.0262          | -0.0032      | 0.6213         | 0.0294          | -37.5482           | -33.7725       | -2.0900         | -2.0947          |
-| 0.4266        | 3.64  | 1400 | 0.4944        | 0.0253          | -0.0034      | 0.5951         | 0.0287          | -37.5508           | -33.7813       | -2.0897         | -2.0944          |
-| 0.416         | 3.9   | 1500 | 0.4943        | 0.0256          | -0.0040      | 0.6067         | 0.0297          | -37.5568           | -33.7782       | -2.0897         | -2.0944          |
 ### Framework versions

 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 24.8075
+- Rewards/chosen: -0.0054
+- Rewards/rejected: -0.0092
+- Rewards/accuracies: 0.5133
+- Rewards/margins: 0.0038
+- Logps/rejected: -37.6085
+- Logps/chosen: -34.0885
+- Logits/rejected: -2.2234
+- Logits/chosen: -2.2282
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 23.9156       | 0.26  | 100  | 24.9323         | -0.0015        | -0.0033          | 0.5282             | 0.0018          | -37.5501       | -34.0500     | -2.2289         | -2.2338       |
+| 22.4879       | 0.52  | 200  | 24.7992         | -0.0025        | -0.0061          | 0.5598             | 0.0037          | -37.5780       | -34.0593     | -2.2258         | -2.2307       |
+| 19.8329       | 0.78  | 300  | 24.9557         | -0.0066        | -0.0089          | 0.5216             | 0.0023          | -37.6060       | -34.1010     | -2.2229         | -2.2278       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "up_proj",
     "q_proj",
     "v_proj",
     "k_proj",
-    "down_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
     "q_proj",
+    "up_proj",
+    "o_proj",
     "v_proj",
     "k_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:814fce2676951a9a2d42b13c5a1d1ab443de895adae7a07d14ec0f71f3860424
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3d6f37fbacb17abbce722857199ffab429b80c9da42b0ac74f2bd2e26a0bae0
 size 176183216

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.0943572521209717,
-    "eval_logits/rejected": -2.0897181034088135,
-    "eval_logps/chosen": -33.78822326660156,
-    "eval_logps/rejected": -37.54805374145508,
-    "eval_loss": 0.49459660053253174,
-    "eval_rewards/accuracies": 0.5921927094459534,
-    "eval_rewards/chosen": 0.024633033201098442,
-    "eval_rewards/margins": 0.027776462957262993,
-    "eval_rewards/rejected": -0.0031434299889951944,
-    "eval_runtime": 145.6868,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295,
-    "train_loss": 0.35194717815944127,
-    "train_runtime": 10802.0809,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.228182792663574,
+    "eval_logits/rejected": -2.2233598232269287,
+    "eval_logps/chosen": -34.08854293823242,
+    "eval_logps/rejected": -37.60850143432617,
+    "eval_loss": 24.80753517150879,
+    "eval_rewards/accuracies": 0.5132890343666077,
+    "eval_rewards/chosen": -0.005399257410317659,
+    "eval_rewards/margins": 0.0037888663355261087,
+    "eval_rewards/rejected": -0.009188123047351837,
+    "eval_runtime": 145.6001,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.356,
     "eval_steps_per_second": 0.295,
+    "train_loss": 22.846377404943688,
+    "train_runtime": 3252.1936,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.0943572521209717,
-    "eval_logits/rejected": -2.0897181034088135,
-    "eval_logps/chosen": -33.78822326660156,
-    "eval_logps/rejected": -37.54805374145508,
-    "eval_loss": 0.49459660053253174,
-    "eval_rewards/accuracies": 0.5921927094459534,
-    "eval_rewards/chosen": 0.024633033201098442,
-    "eval_rewards/margins": 0.027776462957262993,
-    "eval_rewards/rejected": -0.0031434299889951944,
-    "eval_runtime": 145.6868,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.228182792663574,
+    "eval_logits/rejected": -2.2233598232269287,
+    "eval_logps/chosen": -34.08854293823242,
+    "eval_logps/rejected": -37.60850143432617,
+    "eval_loss": 24.80753517150879,
+    "eval_rewards/accuracies": 0.5132890343666077,
+    "eval_rewards/chosen": -0.005399257410317659,
+    "eval_rewards/margins": 0.0037888663355261087,
+    "eval_rewards/rejected": -0.009188123047351837,
+    "eval_runtime": 145.6001,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.356,
     "eval_steps_per_second": 0.295
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.35194717815944127,
-    "train_runtime": 10802.0809,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "train_loss": 22.846377404943688,
+    "train_runtime": 3252.1936,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b1aafdba9d2786e8fe506c065a1121076d97e18be040fc8361db9495c2d2dea5
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d1f31267c4e8a6a7c7100d15a541d9fbe9010773ed15e13f572c14b191f8b36
 size 4984