Training in progress, step 400

Browse files

Files changed (8) hide show

README.md +15 -27
adapter_config.json +3 -3
adapter_model.safetensors +1 -1
all_results.json +15 -15
eval_results.json +11 -11
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -20,15 +20,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 6.0779
-- Rewards/chosen: -0.0133
-- Rewards/rejected: -0.0383
-- Rewards/accuracies: 0.5714
-- Rewards/margins: 0.0250
-- Logps/rejected: -37.7083
-- Logps/chosen: -34.1011
-- Logits/rejected: -2.2004
-- Logits/chosen: -2.2052
 ## Model description
@@ -57,27 +57,15 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 5.6745        | 0.26  | 100  | -2.2338       | -2.2290         | -34.0153     | -37.5181       | 6.2508          | 0.5461             | 0.0038         | 0.0041          | -0.0003          |
-| 5.2135        | 0.52  | 200  | -2.2315       | -2.2267         | -34.0014     | -37.5042       | 6.2881          | 0.5403             | 0.0066         | 0.0041          | 0.0025           |
-| 4.3883        | 0.78  | 300  | -2.2291       | -2.2243         | -34.0193     | -37.5325       | 6.2382          | 0.5166             | 0.0031         | 0.0062          | -0.0032          |
-| 2.9753        | 1.04  | 400  | 6.0369        | 0.0069          | -0.0106      | 0.6034         | 0.0176          | -37.5698           | -33.9999       | -2.2093         | -2.2141          |
-| 2.4163        | 1.3   | 500  | 6.0677        | -0.0149         | -0.0375      | 0.5801         | 0.0225          | -37.7039           | -34.1092       | -2.1858         | -2.1907          |
-| 2.52          | 1.56  | 600  | 5.9990        | -0.0097         | -0.0348      | 0.5748         | 0.0251          | -37.6905           | -34.0832       | -2.1951         | -2.1999          |
-| 2.9186        | 1.82  | 700  | 6.1696        | -0.0176         | -0.0364      | 0.5598         | 0.0188          | -37.6988           | -34.1227       | -2.2048         | -2.2097          |
-| 1.2867        | 2.08  | 800  | 6.0594        | -0.0122         | -0.0361      | 0.5777         | 0.0239          | -37.6970           | -34.0957       | -2.2060         | -2.2109          |
-| 0.8862        | 2.34  | 900  | 6.0621        | -0.0165         | -0.0403      | 0.5918         | 0.0237          | -37.7179           | -34.1172       | -2.2027         | -2.2076          |
-| 1.2395        | 2.6   | 1000 | 6.0000        | -0.0163         | -0.0418      | 0.5864         | 0.0255          | -37.7257           | -34.1161       | -2.2002         | -2.2050          |
-| 1.4312        | 2.86  | 1100 | 5.9905        | -0.0144         | -0.0409      | 0.5860         | 0.0264          | -37.7210           | -34.1067       | -2.1989         | -2.2038          |
-| 1.0133        | 3.12  | 1200 | 6.1103        | -0.0167         | -0.0396      | 0.5889         | 0.0229          | -37.7146           | -34.1182       | -2.2000         | -2.2048          |
-| 0.5152        | 3.38  | 1300 | 6.0578        | -0.0132         | -0.0383      | 0.5544         | 0.0251          | -37.7080           | -34.1004       | -2.2003         | -2.2051          |
-| 0.8378        | 3.64  | 1400 | 6.0572        | -0.0138         | -0.0389      | 0.5748         | 0.0251          | -37.7113           | -34.1035       | -2.2004         | -2.2052          |
-| 0.9599        | 3.9   | 1500 | 6.0348        | -0.0125         | -0.0385      | 0.5835         | 0.0260          | -37.7091           | -34.0972       | -2.2004         | -2.2052          |
 ### Framework versions

 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.9927
+- Rewards/chosen: -0.0011
+- Rewards/rejected: -0.0084
+- Rewards/accuracies: 0.5536
+- Rewards/margins: 0.0073
+- Logps/rejected: -37.5587
+- Logps/chosen: -34.0400
+- Logits/rejected: -2.2193
+- Logits/chosen: -2.2241
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.9701        | 0.26  | 100  | 0.9947          | 0.0025         | -0.0029          | 0.5311             | 0.0054          | -37.5310       | -34.0218     | -2.2257         | -2.2305       |
+| 0.9192        | 0.52  | 200  | 0.9888          | 0.0055         | -0.0057          | 0.5336             | 0.0112          | -37.5450       | -34.0069     | -2.2237         | -2.2285       |
+| 0.8593        | 0.78  | 300  | 0.9896          | -0.0002        | -0.0105          | 0.5652             | 0.0103          | -37.5692       | -34.0354     | -2.2191         | -2.2239       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -19,13 +19,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
-    "down_proj",
     "o_proj",
     "q_proj",
     "k_proj",
-    "gate_proj",
-    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
     "v_proj",
     "o_proj",
     "q_proj",
     "k_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fe0989cf18557a7daa207439d8382e361ceff43a9e66402269ceda7d71f2a3e
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:32d56e589aacd9a87f0a6816e32fcc42fac42b3f4a716d9e492440497cd2cac1
 size 176183216

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.205192804336548,
-    "eval_logits/rejected": -2.20035719871521,
-    "eval_logps/chosen": -34.1010856628418,
-    "eval_logps/rejected": -37.70829772949219,
-    "eval_loss": 6.077866077423096,
-    "eval_rewards/accuracies": 0.5714285373687744,
-    "eval_rewards/chosen": -0.013306654058396816,
-    "eval_rewards/margins": 0.025028489530086517,
-    "eval_rewards/rejected": -0.03833514451980591,
-    "eval_runtime": 145.6887,
     "eval_samples": 343,
     "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295,
-    "train_loss": 1.3887401007986688,
-    "train_runtime": 10806.9485,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2240829467773438,
+    "eval_logits/rejected": -2.2192695140838623,
+    "eval_logps/chosen": -34.03996658325195,
+    "eval_logps/rejected": -37.558677673339844,
+    "eval_loss": 0.9926707744598389,
+    "eval_rewards/accuracies": 0.5535714626312256,
+    "eval_rewards/chosen": -0.0010830374667420983,
+    "eval_rewards/margins": 0.0073289512656629086,
+    "eval_rewards/rejected": -0.008411988615989685,
+    "eval_runtime": 145.7353,
     "eval_samples": 343,
     "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295,
+    "train_loss": 0.9474717462217653,
+    "train_runtime": 3250.5705,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

eval_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -2.205192804336548,
-    "eval_logits/rejected": -2.20035719871521,
-    "eval_logps/chosen": -34.1010856628418,
-    "eval_logps/rejected": -37.70829772949219,
-    "eval_loss": 6.077866077423096,
-    "eval_rewards/accuracies": 0.5714285373687744,
-    "eval_rewards/chosen": -0.013306654058396816,
-    "eval_rewards/margins": 0.025028489530086517,
-    "eval_rewards/rejected": -0.03833514451980591,
-    "eval_runtime": 145.6887,
     "eval_samples": 343,
     "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2240829467773438,
+    "eval_logits/rejected": -2.2192695140838623,
+    "eval_logps/chosen": -34.03996658325195,
+    "eval_logps/rejected": -37.558677673339844,
+    "eval_loss": 0.9926707744598389,
+    "eval_rewards/accuracies": 0.5535714626312256,
+    "eval_rewards/chosen": -0.0010830374667420983,
+    "eval_rewards/margins": 0.0073289512656629086,
+    "eval_rewards/rejected": -0.008411988615989685,
+    "eval_runtime": 145.7353,
     "eval_samples": 343,
     "eval_samples_per_second": 2.354,
     "eval_steps_per_second": 0.295

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 1.3887401007986688,
-    "train_runtime": 10806.9485,
     "train_samples": 3079,
-    "train_samples_per_second": 1.14,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.9474717462217653,
+    "train_runtime": 3250.5705,
     "train_samples": 3079,
+    "train_samples_per_second": 0.947,
+    "train_steps_per_second": 0.118
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a62740126001c4e37753bce979b61832119e1036635abceee907dccff0b6baa
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:14d8d82d267f6d519e0b2cb4934be36e24c3477dcb3ba98069a4b273db07577a
 size 4984