Training in progress, step 700

Browse files

Files changed (8) hide show

README.md +15 -27
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
all_results.json +17 -17
eval_results.json +13 -13
train_results.json +5 -5
trainer_state.json +0 -0
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -20,15 +20,15 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.9586
-- Rewards/chosen: -0.1568
-- Rewards/rejected: -0.1982
-- Rewards/accuracies: 0.5743
-- Rewards/margins: 0.0414
-- Logps/rejected: -39.4984
-- Logps/chosen: -35.6023
-- Logits/rejected: -1.9133
-- Logits/chosen: -1.9178
 ## Model description
@@ -57,27 +57,15 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
-- num_epochs: 4
 ### Training results
-| Training Loss | Epoch | Step | Logits/chosen | Logits/rejected | Logps/chosen | Logps/rejected | Validation Loss | Rewards/accuracies | Rewards/chosen | Rewards/margins | Rewards/rejected |
-|:-------------:|:-----:|:----:|:-------------:|:---------------:|:------------:|:--------------:|:---------------:|:------------------:|:--------------:|:---------------:|:----------------:|
-| 0.9851        | 0.26  | 100  | -2.2305       | -2.2257         | -34.0218     | -37.5310       | 0.9973          | 0.5311             | 0.0013         | 0.0027          | -0.0014          |
-| 0.9596        | 0.52  | 200  | -2.2285       | -2.2237         | -34.0069     | -37.5450       | 0.9944          | 0.5336             | 0.0028         | 0.0056          | -0.0028          |
-| 0.9305        | 0.78  | 300  | -2.2243       | -2.2195         | -34.0508     | -37.5717       | 0.9961          | 0.5594             | -0.0016        | 0.0039          | -0.0055          |
-| 0.863         | 1.04  | 400  | 0.9918        | -0.0077         | -0.0159      | 0.5710         | 0.0081          | -37.6755           | -34.1120       | -2.1910         | -2.1958          |
-| 0.7835        | 1.3   | 500  | 0.9853        | -0.0258         | -0.0405      | 0.5772         | 0.0146          | -37.9211           | -34.2926       | -2.1283         | -2.1330          |
-| 0.7983        | 1.56  | 600  | 0.9758        | -0.0570         | -0.0811      | 0.5860         | 0.0241          | -38.3277           | -34.6044       | -2.0577         | -2.0623          |
-| 0.7488        | 1.82  | 700  | 0.9750        | -0.0958         | -0.1207      | 0.5714         | 0.0249          | -38.7239           | -34.9924       | -2.0056         | -2.0102          |
-| 0.6596        | 2.08  | 800  | 0.9685        | -0.1098         | -0.1413      | 0.5569         | 0.0315          | -38.9295           | -35.1326       | -1.9804         | -1.9850          |
-| 0.5721        | 2.34  | 900  | 0.9644        | -0.1350         | -0.1706      | 0.5598         | 0.0355          | -39.2223           | -35.3850       | -1.9434         | -1.9479          |
-| 0.6999        | 2.6   | 1000 | 0.9601        | -0.1501         | -0.1899      | 0.5627         | 0.0398          | -39.4161           | -35.5356       | -1.9241         | -1.9286          |
-| 0.724         | 2.86  | 1100 | 0.9595        | -0.1555         | -0.1960      | 0.5743         | 0.0405          | -39.4767           | -35.5896       | -1.9149         | -1.9194          |
-| 0.5713        | 3.12  | 1200 | 0.9584        | -0.1563         | -0.1978      | 0.5714         | 0.0415          | -39.4951           | -35.5976       | -1.9141         | -1.9186          |
-| 0.5014        | 3.38  | 1300 | 0.9597        | -0.1576         | -0.1978      | 0.5656         | 0.0402          | -39.4945           | -35.6101       | -1.9130         | -1.9174          |
-| 0.5933        | 3.64  | 1400 | 0.9603        | -0.1569         | -0.1966      | 0.5627         | 0.0397          | -39.4824           | -35.6038       | -1.9143         | -1.9187          |
-| 0.5663        | 3.9   | 1500 | 0.9575        | -0.1550         | -0.1975      | 0.5743         | 0.0425          | -39.4918           | -35.5847       | -1.9134         | -1.9178          |
 ### Framework versions

 This model is a fine-tuned version of [data/ap-gpt-j-6b-sft-qlora-04-08](https://huggingface.co/data/ap-gpt-j-6b-sft-qlora-04-08) on the hugodk-sch/aftonposten_title_prefs dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.6907
+- Rewards/chosen: -0.0131
+- Rewards/rejected: -0.0201
+- Rewards/accuracies: 0.5133
+- Rewards/margins: 0.0070
+- Logps/rejected: -37.6172
+- Logps/chosen: -34.1001
+- Logits/rejected: -2.2213
+- Logits/chosen: -2.2261
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: cosine
 - lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss | Rewards/chosen | Rewards/rejected | Rewards/accuracies | Rewards/margins | Logps/rejected | Logps/chosen | Logits/rejected | Logits/chosen |
+|:-------------:|:-----:|:----:|:---------------:|:--------------:|:----------------:|:------------------:|:---------------:|:--------------:|:------------:|:---------------:|:-------------:|
+| 0.6813        | 0.26  | 100  | 0.6915          | 0.0010         | -0.0036          | 0.5220             | 0.0046          | -37.5345       | -34.0295     | -2.2270         | -2.2319       |
+| 0.6632        | 0.52  | 200  | 0.6888          | -0.0034        | -0.0137          | 0.5660             | 0.0103          | -37.5852       | -34.0514     | -2.2240         | -2.2288       |
+| 0.6327        | 0.78  | 300  | 0.6909          | -0.0119        | -0.0186          | 0.4950             | 0.0067          | -37.6097       | -34.0940     | -2.2214         | -2.2262       |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -21,10 +21,10 @@
   "target_modules": [
     "up_proj",
     "k_proj",
     "down_proj",
-    "o_proj",
     "gate_proj",
-    "q_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

   "target_modules": [
     "up_proj",
     "k_proj",
+    "q_proj",
     "down_proj",
     "gate_proj",
+    "o_proj",
     "v_proj"
   ],
   "task_type": "CAUSAL_LM",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6782fc53cd434a725a53ef2fdc13f188d8f9ebe43a9c2192412a9761fc58483
 size 176183216

 version https://git-lfs.github.com/spec/v1
+oid sha256:c6a0cb6c14f8b02493cfc5b5eef1160c0acff99f0ac39f31fc89a2a6c96e329a
 size 176183216

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -1.9177559614181519,
-    "eval_logits/rejected": -1.913318157196045,
-    "eval_logps/chosen": -35.60228729248047,
-    "eval_logps/rejected": -39.49840545654297,
-    "eval_loss": 0.958584725856781,
-    "eval_rewards/accuracies": 0.574335515499115,
-    "eval_rewards/chosen": -0.1567731499671936,
-    "eval_rewards/margins": 0.041405245661735535,
-    "eval_rewards/rejected": -0.19817839562892914,
-    "eval_runtime": 145.6765,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.355,
-    "eval_steps_per_second": 0.295,
-    "train_loss": 0.553979323127053,
-    "train_runtime": 10795.8022,
     "train_samples": 3079,
-    "train_samples_per_second": 1.141,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2261412143707275,
+    "eval_logits/rejected": -2.2213146686553955,
+    "eval_logps/chosen": -34.100101470947266,
+    "eval_logps/rejected": -37.61717224121094,
+    "eval_loss": 0.6907125115394592,
+    "eval_rewards/accuracies": 0.5132890343666077,
+    "eval_rewards/chosen": -0.013110256753861904,
+    "eval_rewards/margins": 0.007000547368079424,
+    "eval_rewards/rejected": -0.020110804587602615,
+    "eval_runtime": 145.4751,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.358,
+    "eval_steps_per_second": 0.296,
+    "train_loss": 0.6689951481757226,
+    "train_runtime": 3249.3574,
     "train_samples": 3079,
+    "train_samples_per_second": 0.948,
+    "train_steps_per_second": 0.118
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 4.0,
-    "eval_logits/chosen": -1.9177559614181519,
-    "eval_logits/rejected": -1.913318157196045,
-    "eval_logps/chosen": -35.60228729248047,
-    "eval_logps/rejected": -39.49840545654297,
-    "eval_loss": 0.958584725856781,
-    "eval_rewards/accuracies": 0.574335515499115,
-    "eval_rewards/chosen": -0.1567731499671936,
-    "eval_rewards/margins": 0.041405245661735535,
-    "eval_rewards/rejected": -0.19817839562892914,
-    "eval_runtime": 145.6765,
     "eval_samples": 343,
-    "eval_samples_per_second": 2.355,
-    "eval_steps_per_second": 0.295
 }

 {
+    "epoch": 1.0,
+    "eval_logits/chosen": -2.2261412143707275,
+    "eval_logits/rejected": -2.2213146686553955,
+    "eval_logps/chosen": -34.100101470947266,
+    "eval_logps/rejected": -37.61717224121094,
+    "eval_loss": 0.6907125115394592,
+    "eval_rewards/accuracies": 0.5132890343666077,
+    "eval_rewards/chosen": -0.013110256753861904,
+    "eval_rewards/margins": 0.007000547368079424,
+    "eval_rewards/rejected": -0.020110804587602615,
+    "eval_runtime": 145.4751,
     "eval_samples": 343,
+    "eval_samples_per_second": 2.358,
+    "eval_steps_per_second": 0.296
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 4.0,
-    "train_loss": 0.553979323127053,
-    "train_runtime": 10795.8022,
     "train_samples": 3079,
-    "train_samples_per_second": 1.141,
-    "train_steps_per_second": 0.143
 }

 {
+    "epoch": 1.0,
+    "train_loss": 0.6689951481757226,
+    "train_runtime": 3249.3574,
     "train_samples": 3079,
+    "train_samples_per_second": 0.948,
+    "train_steps_per_second": 0.118
 }

trainer_state.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92975a328b03a559447db779537fdb0f988160c889014a91c570a5de327474d4
 size 4984

 version https://git-lfs.github.com/spec/v1
+oid sha256:c288dcbf28ede7cf49e7ecb2979521d825f0f03f89c2659f96cf853b83096653
 size 4984