7f3cd9fef53682555543772ea1099fc63b98d89e956e41f2914cc5c940857ad0

Browse files

Files changed (6) hide show

added_tokens.json +1 -0
config.json +198 -198
tokenizer.json +9 -0
tokenizer_config.json +9 -0
trainer_state.json +950 -950
training_args.bin +2 -2

added_tokens.json CHANGED Viewed

@@ -1,4 +1,5 @@
 {
   "<|endoftext|>": 151643,
   "<|im_end|>": 151645,
   "<|im_start|>": 151644

 {
+  "<image>": 151646,
   "<|endoftext|>": 151643,
   "<|im_end|>": 151645,
   "<|im_start|>": 151644

config.json CHANGED Viewed

@@ -1,199 +1,199 @@
 {
-    "_name_or_path": "/mnt/bn/vl-research-cn-boli01-hl/checkpoints/llavanext-google_siglip-so400m-patch14-384-Qwen_Qwen2-72B-Instruct-mid_to_final_next_3m_am9_july13",
-    "architectures": [
-        "LlavaQwenForCausalLM"
-    ],
-    "attention_dropout": 0.0,
-    "bos_token_id": 151643,
-    "eos_token_id": 151645,
-    "hidden_act": "silu",
-    "hidden_size": 8192,
-    "image_aspect_ratio": "anyres_max_9",
-    "image_crop_resolution": null,
-    "image_grid_pinpoints": [
-        [
-            384,
-            384
-        ],
-        [
-            384,
-            768
-        ],
-        [
-            384,
-            1152
-        ],
-        [
-            384,
-            1536
-        ],
-        [
-            384,
-            1920
-        ],
-        [
-            384,
-            2304
-        ],
-        [
-            768,
-            384
-        ],
-        [
-            768,
-            768
-        ],
-        [
-            768,
-            1152
-        ],
-        [
-            768,
-            1536
-        ],
-        [
-            768,
-            1920
-        ],
-        [
-            768,
-            2304
-        ],
-        [
-            1152,
-            384
-        ],
-        [
-            1152,
-            768
-        ],
-        [
-            1152,
-            1152
-        ],
-        [
-            1152,
-            1536
-        ],
-        [
-            1152,
-            1920
-        ],
-        [
-            1152,
-            2304
-        ],
-        [
-            1536,
-            384
-        ],
-        [
-            1536,
-            768
-        ],
-        [
-            1536,
-            1152
-        ],
-        [
-            1536,
-            1536
-        ],
-        [
-            1536,
-            1920
-        ],
-        [
-            1536,
-            2304
-        ],
-        [
-            1920,
-            384
-        ],
-        [
-            1920,
-            768
-        ],
-        [
-            1920,
-            1152
-        ],
-        [
-            1920,
-            1536
-        ],
-        [
-            1920,
-            1920
-        ],
-        [
-            1920,
-            2304
-        ],
-        [
-            2304,
-            384
-        ],
-        [
-            2304,
-            768
-        ],
-        [
-            2304,
-            1152
-        ],
-        [
-            2304,
-            1536
-        ],
-        [
-            2304,
-            1920
-        ],
-        [
-            2304,
-            2304
-        ]
-    ],
-    "image_split_resolution": null,
-    "image_token_index": 151646,
-    "initializer_range": 0.02,
-    "intermediate_size": 29568,
-    "max_position_embeddings": 32768,
-    "max_window_layers": 80,
-    "mm_hidden_size": 1152,
-    "mm_patch_merge_type": "spatial_unpad",
-    "mm_projector_lr": null,
-    "mm_projector_type": "mlp2x_gelu",
-    "mm_resampler_type": null,
-    "mm_spatial_pool_mode": "bilinear",
-    "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
-    "mm_use_im_patch_token": false,
-    "mm_use_im_start_end": false,
-    "mm_vision_select_feature": "patch",
-    "mm_vision_select_layer": -2,
-    "mm_vision_tower": "google/siglip-so400m-patch14-384",
-    "mm_vision_tower_lr": 2e-07,
-    "model_type": "llava",
-    "num_attention_heads": 64,
-    "num_hidden_layers": 80,
-    "num_key_value_heads": 8,
-    "pos_skipping_range": 4096,
-    "rms_norm_eps": 1e-06,
-    "rope_scaling": null,
-    "rope_theta": 1000000.0,
-    "sliding_window": 131072,
-    "tie_word_embeddings": false,
-    "tokenizer_model_max_length": 32768,
-    "tokenizer_padding_side": "right",
-    "torch_dtype": "bfloat16",
-    "transformers_version": "4.40.0.dev0",
-    "use_cache": true,
-    "use_mm_proj": true,
-    "use_pos_skipping": false,
-    "use_sliding_window": false,
-    "vision_tower_pretrained": null,
-    "vocab_size": 152064,
-    "add_faster_video": false
-}

 {
+  "_name_or_path": "/mnt/bn/vl-research/workspace/txiong23/outputs/ai_feedback/llava_next/critic-72b-iterDPO/v1p5Plus_llava-bench/llava-onevision_Qwen2-72b-ov_dpo-iter1_llava-rlhf-llava-criticV1p5Plus-llava-bench-72b_beta0.1_epoch1",
+  "architectures": [
+    "LlavaQwenForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 8192,
+  "image_aspect_ratio": "anyres_max_9",
+  "image_crop_resolution": 384,
+  "image_grid_pinpoints": [
+    [
+      384,
+      384
+    ],
+    [
+      384,
+      768
+    ],
+    [
+      384,
+      1152
+    ],
+    [
+      384,
+      1536
+    ],
+    [
+      384,
+      1920
+    ],
+    [
+      384,
+      2304
+    ],
+    [
+      768,
+      384
+    ],
+    [
+      768,
+      768
+    ],
+    [
+      768,
+      1152
+    ],
+    [
+      768,
+      1536
+    ],
+    [
+      768,
+      1920
+    ],
+    [
+      768,
+      2304
+    ],
+    [
+      1152,
+      384
+    ],
+    [
+      1152,
+      768
+    ],
+    [
+      1152,
+      1152
+    ],
+    [
+      1152,
+      1536
+    ],
+    [
+      1152,
+      1920
+    ],
+    [
+      1152,
+      2304
+    ],
+    [
+      1536,
+      384
+    ],
+    [
+      1536,
+      768
+    ],
+    [
+      1536,
+      1152
+    ],
+    [
+      1536,
+      1536
+    ],
+    [
+      1536,
+      1920
+    ],
+    [
+      1536,
+      2304
+    ],
+    [
+      1920,
+      384
+    ],
+    [
+      1920,
+      768
+    ],
+    [
+      1920,
+      1152
+    ],
+    [
+      1920,
+      1536
+    ],
+    [
+      1920,
+      1920
+    ],
+    [
+      1920,
+      2304
+    ],
+    [
+      2304,
+      384
+    ],
+    [
+      2304,
+      768
+    ],
+    [
+      2304,
+      1152
+    ],
+    [
+      2304,
+      1536
+    ],
+    [
+      2304,
+      1920
+    ],
+    [
+      2304,
+      2304
+    ]
+  ],
+  "image_split_resolution": 384,
+  "image_token_index": 151646,
+  "initializer_range": 0.02,
+  "intermediate_size": 29568,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 80,
+  "mm_hidden_size": 1152,
+  "mm_newline_position": "one_token",
+  "mm_patch_merge_type": "spatial_unpad",
+  "mm_projector_lr": null,
+  "mm_projector_type": "mlp2x_gelu",
+  "mm_resampler_type": null,
+  "mm_spatial_pool_mode": "bilinear",
+  "mm_tunable_parts": "mm_vision_tower,mm_mlp_adapter,mm_language_model",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "google/siglip-so400m-patch14-384",
+  "mm_vision_tower_lr": null,
+  "model_type": "llava_qwen",
+  "num_attention_heads": 64,
+  "num_hidden_layers": 80,
+  "num_key_value_heads": 8,
+  "pos_skipping_range": 4096,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": 131072,
+  "tie_word_embeddings": false,
+  "tokenizer_model_max_length": 32768,
+  "tokenizer_padding_side": "right",
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.40.0.dev0",
+  "use_cache": true,
+  "use_mm_proj": true,
+  "use_pos_skipping": false,
+  "use_sliding_window": false,
+  "vision_tower_pretrained": null,
+  "vocab_size": 152064
+}

tokenizer.json CHANGED Viewed

@@ -29,6 +29,15 @@
       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": {

       "rstrip": false,
       "normalized": false,
       "special": true
+    },
+    {
+      "id": 151646,
+      "content": "<image>",
+      "single_word": false,
+      "lstrip": false,
+      "rstrip": false,
+      "normalized": false,
+      "special": true
     }
   ],
   "normalizer": {

tokenizer_config.json CHANGED Viewed

@@ -24,6 +24,14 @@
       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "additional_special_tokens": [
@@ -38,6 +46,7 @@
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
   "padding_side": "right",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

       "rstrip": false,
       "single_word": false,
       "special": true
+    },
+    "151646": {
+      "content": "<image>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
     }
   },
   "additional_special_tokens": [
   "model_max_length": 32768,
   "pad_token": "<|endoftext|>",
   "padding_side": "right",
+  "processor_class": "LlavaProcessor",
   "split_special_tokens": false,
   "tokenizer_class": "Qwen2Tokenizer",
   "unk_token": null

trainer_state.json CHANGED Viewed

@@ -10,1325 +10,1325 @@
   "log_history": [
     {
       "epoch": 0.01,
-      "grad_norm": 29.326078015981345,
       "learning_rate": 6.25e-08,
-      "logps/chosen": -47.87165832519531,
-      "logps/rejected": -35.03704071044922,
-      "loss": 0.6939,
-      "losses/dpo": 0.7437427639961243,
-      "losses/sft": 0.2519839406013489,
-      "losses/total": 0.7437427639961243,
-      "ref_logps/chosen": -47.90069580078125,
-      "ref_logps/rejected": -35.07575225830078,
-      "rewards/accuracies": 0.4609375,
-      "rewards/chosen": 0.0029037208296358585,
-      "rewards/margins": -0.0009674869943410158,
-      "rewards/rejected": 0.0038712075911462307,
       "step": 1
     },
     {
       "epoch": 0.03,
-      "grad_norm": 25.98987817588094,
       "learning_rate": 1.25e-07,
-      "logps/chosen": -46.03837966918945,
-      "logps/rejected": -34.79166030883789,
-      "loss": 0.6937,
-      "losses/dpo": 0.711306095123291,
-      "losses/sft": 0.21511156857013702,
-      "losses/total": 0.711306095123291,
-      "ref_logps/chosen": -46.05853271484375,
-      "ref_logps/rejected": -34.81706237792969,
-      "rewards/accuracies": 0.5,
-      "rewards/chosen": 0.0020157406106591225,
-      "rewards/margins": -0.000524366507306695,
-      "rewards/rejected": 0.002540107350796461,
       "step": 2
     },
     {
       "epoch": 0.04,
-      "grad_norm": 43.145173675858224,
       "learning_rate": 1.875e-07,
-      "logps/chosen": -41.797569274902344,
-      "logps/rejected": -31.708539962768555,
-      "loss": 0.693,
-      "losses/dpo": 0.7042351365089417,
-      "losses/sft": 0.18763618171215057,
-      "losses/total": 0.7042351365089417,
-      "ref_logps/chosen": -41.833030700683594,
-      "ref_logps/rejected": -31.735107421875,
-      "rewards/accuracies": 0.5234375,
-      "rewards/chosen": 0.003545756684616208,
-      "rewards/margins": 0.0008889732416719198,
-      "rewards/rejected": 0.0026567834429442883,
       "step": 3
     },
     {
       "epoch": 0.05,
-      "grad_norm": 31.32790996670384,
       "learning_rate": 2.5e-07,
-      "logps/chosen": -42.71172332763672,
-      "logps/rejected": -32.757808685302734,
-      "loss": 0.6927,
-      "losses/dpo": 0.6976655125617981,
-      "losses/sft": 0.17784112691879272,
-      "losses/total": 0.6976655125617981,
-      "ref_logps/chosen": -42.72623062133789,
-      "ref_logps/rejected": -32.75667190551758,
       "rewards/accuracies": 0.5,
-      "rewards/chosen": 0.0014508566819131374,
-      "rewards/margins": 0.0015643269289284945,
-      "rewards/rejected": -0.00011346983956173062,
       "step": 4
     },
     {
       "epoch": 0.07,
-      "grad_norm": 35.10577986645193,
       "learning_rate": 3.1249999999999997e-07,
-      "logps/chosen": -45.85194396972656,
-      "logps/rejected": -34.628639221191406,
-      "loss": 0.689,
-      "losses/dpo": 0.7395577430725098,
-      "losses/sft": 0.17383158206939697,
-      "losses/total": 0.7395577430725098,
-      "ref_logps/chosen": -45.91680145263672,
-      "ref_logps/rejected": -34.60468673706055,
-      "rewards/accuracies": 0.5703125,
-      "rewards/chosen": 0.006485694088041782,
-      "rewards/margins": 0.008881103247404099,
-      "rewards/rejected": -0.002395408693701029,
       "step": 5
     },
     {
       "epoch": 0.08,
-      "grad_norm": 28.260278751569523,
       "learning_rate": 3.75e-07,
-      "logps/chosen": -42.09749221801758,
-      "logps/rejected": -32.70561599731445,
-      "loss": 0.6932,
-      "losses/dpo": 0.6590798497200012,
-      "losses/sft": 0.18368251621723175,
-      "losses/total": 0.6590798497200012,
-      "ref_logps/chosen": -42.06741714477539,
-      "ref_logps/rejected": -32.67097473144531,
-      "rewards/accuracies": 0.484375,
-      "rewards/chosen": -0.0030076471157372,
-      "rewards/margins": 0.0004564363043755293,
-      "rewards/rejected": -0.0034640836529433727,
       "step": 6
     },
     {
       "epoch": 0.1,
-      "grad_norm": 45.257780534421805,
       "learning_rate": 4.375e-07,
-      "logps/chosen": -48.16801834106445,
-      "logps/rejected": -35.98320770263672,
-      "loss": 0.6931,
-      "losses/dpo": 0.674820065498352,
-      "losses/sft": 0.17130310833454132,
-      "losses/total": 0.674820065498352,
-      "ref_logps/chosen": -48.16166687011719,
-      "ref_logps/rejected": -35.96845245361328,
       "rewards/accuracies": 0.515625,
-      "rewards/chosen": -0.0006352070486173034,
-      "rewards/margins": 0.0008399828802794218,
-      "rewards/rejected": -0.0014751903945580125,
       "step": 7
     },
     {
       "epoch": 0.11,
-      "grad_norm": 37.963707614132204,
       "learning_rate": 5e-07,
-      "logps/chosen": -46.631561279296875,
-      "logps/rejected": -34.54258728027344,
-      "loss": 0.6911,
-      "losses/dpo": 0.6616916060447693,
-      "losses/sft": 0.15279927849769592,
-      "losses/total": 0.6616916060447693,
-      "ref_logps/chosen": -46.690643310546875,
-      "ref_logps/rejected": -34.551368713378906,
-      "rewards/accuracies": 0.5546875,
-      "rewards/chosen": 0.005908225197345018,
-      "rewards/margins": 0.005030112341046333,
-      "rewards/rejected": 0.0008781132637523115,
       "step": 8
     },
     {
       "epoch": 0.12,
-      "grad_norm": 23.24345634411509,
       "learning_rate": 4.997080567080816e-07,
-      "logps/chosen": -45.053184509277344,
-      "logps/rejected": -35.14673614501953,
-      "loss": 0.6888,
-      "losses/dpo": 0.645126461982727,
-      "losses/sft": 0.1863231658935547,
-      "losses/total": 0.645126461982727,
-      "ref_logps/chosen": -45.13517379760742,
-      "ref_logps/rejected": -35.132957458496094,
-      "rewards/accuracies": 0.5390625,
-      "rewards/chosen": 0.008199075236916542,
-      "rewards/margins": 0.009576688520610332,
-      "rewards/rejected": -0.0013776118867099285,
       "step": 9
     },
     {
       "epoch": 0.14,
-      "grad_norm": 27.949597341892236,
       "learning_rate": 4.988329086794122e-07,
-      "logps/chosen": -46.718475341796875,
-      "logps/rejected": -36.01044464111328,
-      "loss": 0.6845,
-      "losses/dpo": 0.6536989212036133,
-      "losses/sft": 0.16235677897930145,
-      "losses/total": 0.6536989212036133,
-      "ref_logps/chosen": -46.86553192138672,
-      "ref_logps/rejected": -35.97478103637695,
-      "rewards/accuracies": 0.6171875,
-      "rewards/chosen": 0.0147053562104702,
-      "rewards/margins": 0.018271632492542267,
-      "rewards/rejected": -0.0035662769805639982,
       "step": 10
     },
     {
       "epoch": 0.15,
-      "grad_norm": 40.316536183472955,
       "learning_rate": 4.973765998627628e-07,
-      "logps/chosen": -45.7076416015625,
-      "logps/rejected": -32.744361877441406,
-      "loss": 0.6758,
-      "losses/dpo": 0.639275848865509,
-      "losses/sft": 0.19072100520133972,
-      "losses/total": 0.639275848865509,
-      "ref_logps/chosen": -45.953941345214844,
-      "ref_logps/rejected": -32.63063430786133,
-      "rewards/accuracies": 0.734375,
-      "rewards/chosen": 0.024630192667245865,
-      "rewards/margins": 0.036002762615680695,
-      "rewards/rejected": -0.01137256994843483,
       "step": 11
     },
     {
       "epoch": 0.16,
-      "grad_norm": 31.231333750699285,
       "learning_rate": 4.953425315348533e-07,
-      "logps/chosen": -48.346229553222656,
-      "logps/rejected": -35.44029235839844,
-      "loss": 0.6735,
-      "losses/dpo": 0.7411879301071167,
-      "losses/sft": 0.30462783575057983,
-      "losses/total": 0.7411879301071167,
-      "ref_logps/chosen": -48.579471588134766,
-      "ref_logps/rejected": -35.26258087158203,
-      "rewards/accuracies": 0.75,
-      "rewards/chosen": 0.023324450477957726,
-      "rewards/margins": 0.04109576344490051,
-      "rewards/rejected": -0.017771316692233086,
       "step": 12
     },
     {
       "epoch": 0.18,
-      "grad_norm": 24.02378939332813,
       "learning_rate": 4.92735454356513e-07,
-      "logps/chosen": -43.760799407958984,
-      "logps/rejected": -32.20792007446289,
-      "loss": 0.6771,
-      "losses/dpo": 0.7643380761146545,
-      "losses/sft": 0.15294401347637177,
-      "losses/total": 0.7643380761146545,
-      "ref_logps/chosen": -43.909759521484375,
-      "ref_logps/rejected": -32.016273498535156,
-      "rewards/accuracies": 0.65625,
-      "rewards/chosen": 0.01489595789462328,
-      "rewards/margins": 0.034060731530189514,
-      "rewards/rejected": -0.01916477642953396,
       "step": 13
     },
     {
       "epoch": 0.19,
-      "grad_norm": 33.47814491109199,
       "learning_rate": 4.895614572772916e-07,
-      "logps/chosen": -45.79880905151367,
-      "logps/rejected": -34.85653305053711,
-      "loss": 0.6669,
-      "losses/dpo": 0.7224411368370056,
-      "losses/sft": 0.2095840573310852,
-      "losses/total": 0.7224411368370056,
-      "ref_logps/chosen": -46.07813262939453,
-      "ref_logps/rejected": -34.58377456665039,
-      "rewards/accuracies": 0.734375,
-      "rewards/chosen": 0.02793230675160885,
-      "rewards/margins": 0.055208105593919754,
-      "rewards/rejected": -0.027275800704956055,
       "step": 14
     },
     {
       "epoch": 0.21,
-      "grad_norm": 47.78782257013143,
       "learning_rate": 4.858279533144357e-07,
-      "logps/chosen": -47.91066360473633,
-      "logps/rejected": -36.8038330078125,
-      "loss": 0.6545,
-      "losses/dpo": 0.5712046027183533,
-      "losses/sft": 0.20200778543949127,
-      "losses/total": 0.5712046027183533,
-      "ref_logps/chosen": -48.32217788696289,
-      "ref_logps/rejected": -36.395023345947266,
-      "rewards/accuracies": 0.765625,
-      "rewards/chosen": 0.04115153104066849,
-      "rewards/margins": 0.08203274011611938,
-      "rewards/rejected": -0.040881212800741196,
       "step": 15
     },
     {
       "epoch": 0.22,
-      "grad_norm": 246.97737804069968,
       "learning_rate": 4.815436622394441e-07,
-      "logps/chosen": -46.90559387207031,
-      "logps/rejected": -36.626888275146484,
-      "loss": 0.6465,
-      "losses/dpo": 0.7274478077888489,
-      "losses/sft": 0.26765260100364685,
-      "losses/total": 0.7274478077888489,
-      "ref_logps/chosen": -47.21229934692383,
-      "ref_logps/rejected": -35.93655776977539,
-      "rewards/accuracies": 0.78125,
-      "rewards/chosen": 0.03067046031355858,
-      "rewards/margins": 0.09970355033874512,
-      "rewards/rejected": -0.06903309375047684,
       "step": 16
     },
     {
       "epoch": 0.23,
-      "grad_norm": 23.079239827774252,
       "learning_rate": 4.767185902126363e-07,
-      "logps/chosen": -48.87858200073242,
-      "logps/rejected": -36.90644073486328,
-      "loss": 0.633,
-      "losses/dpo": 0.6357161998748779,
-      "losses/sft": 0.1839471459388733,
-      "losses/total": 0.6357161998748779,
-      "ref_logps/chosen": -49.40204620361328,
-      "ref_logps/rejected": -36.11450958251953,
-      "rewards/accuracies": 0.8203125,
-      "rewards/chosen": 0.05234625190496445,
-      "rewards/margins": 0.13153919577598572,
-      "rewards/rejected": -0.07919295132160187,
       "step": 17
     },
     {
       "epoch": 0.25,
-      "grad_norm": 25.63300252359878,
       "learning_rate": 4.7136400641330245e-07,
-      "logps/chosen": -46.71650695800781,
-      "logps/rejected": -37.09510040283203,
-      "loss": 0.6297,
-      "losses/dpo": 0.6393631100654602,
-      "losses/sft": 0.21227942407131195,
-      "losses/total": 0.6393631100654602,
-      "ref_logps/chosen": -46.991477966308594,
-      "ref_logps/rejected": -35.969173431396484,
-      "rewards/accuracies": 0.8203125,
-      "rewards/chosen": 0.02749716117978096,
-      "rewards/margins": 0.14008952677249908,
-      "rewards/rejected": -0.11259236931800842,
       "step": 18
     },
     {
       "epoch": 0.26,
-      "grad_norm": 26.311859157755837,
       "learning_rate": 4.6549241672001225e-07,
-      "logps/chosen": -43.63357162475586,
-      "logps/rejected": -34.979026794433594,
-      "loss": 0.6077,
-      "losses/dpo": 0.5548383593559265,
-      "losses/sft": 0.19493867456912994,
-      "losses/total": 0.5548383593559265,
-      "ref_logps/chosen": -44.03193664550781,
-      "ref_logps/rejected": -33.485252380371094,
-      "rewards/accuracies": 0.8515625,
-      "rewards/chosen": 0.03983645513653755,
-      "rewards/margins": 0.18921390175819397,
-      "rewards/rejected": -0.14937745034694672,
       "step": 19
     },
     {
       "epoch": 0.27,
-      "grad_norm": 28.714173620781665,
       "learning_rate": 4.591175345025566e-07,
-      "logps/chosen": -46.371559143066406,
-      "logps/rejected": -35.243812561035156,
-      "loss": 0.609,
-      "losses/dpo": 0.6410955190658569,
-      "losses/sft": 0.16183941066265106,
-      "losses/total": 0.6410955190658569,
-      "ref_logps/chosen": -46.70909881591797,
-      "ref_logps/rejected": -33.71453857421875,
-      "rewards/accuracies": 0.828125,
-      "rewards/chosen": 0.03375420719385147,
-      "rewards/margins": 0.18668171763420105,
-      "rewards/rejected": -0.15292751789093018,
       "step": 20
     },
     {
       "epoch": 0.29,
-      "grad_norm": 26.549036618365495,
       "learning_rate": 4.5225424859373684e-07,
-      "logps/chosen": -41.521549224853516,
-      "logps/rejected": -34.770103454589844,
-      "loss": 0.5963,
-      "losses/dpo": 0.7364767789840698,
-      "losses/sft": 0.17622552812099457,
-      "losses/total": 0.7364767789840698,
-      "ref_logps/chosen": -41.7501106262207,
-      "ref_logps/rejected": -32.80527114868164,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": 0.02285606414079666,
-      "rewards/margins": 0.21933907270431519,
-      "rewards/rejected": -0.19648301601409912,
       "step": 21
     },
     {
       "epoch": 0.3,
-      "grad_norm": 33.26960463303905,
       "learning_rate": 4.4491858851580553e-07,
-      "logps/chosen": -45.94141387939453,
-      "logps/rejected": -36.16654968261719,
-      "loss": 0.5887,
-      "losses/dpo": 0.495862752199173,
-      "losses/sft": 0.17526012659072876,
-      "losses/total": 0.495862752199173,
-      "ref_logps/chosen": -46.16797637939453,
-      "ref_logps/rejected": -33.92024612426758,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": 0.02265631966292858,
-      "rewards/margins": 0.2472866028547287,
-      "rewards/rejected": -0.22463028132915497,
       "step": 22
     },
     {
       "epoch": 0.32,
-      "grad_norm": 38.94504011639214,
       "learning_rate": 4.3712768704277524e-07,
-      "logps/chosen": -43.17596435546875,
-      "logps/rejected": -35.83791732788086,
-      "loss": 0.5549,
-      "losses/dpo": 0.6368575692176819,
-      "losses/sft": 0.20419813692569733,
-      "losses/total": 0.6368575692176819,
-      "ref_logps/chosen": -43.439910888671875,
-      "ref_logps/rejected": -32.738441467285156,
-      "rewards/accuracies": 0.8828125,
-      "rewards/chosen": 0.026394736021757126,
-      "rewards/margins": 0.3363422751426697,
-      "rewards/rejected": -0.30994755029678345,
       "step": 23
     },
     {
       "epoch": 0.33,
-      "grad_norm": 28.33928817647071,
       "learning_rate": 4.2889974018603024e-07,
-      "logps/chosen": -48.73534393310547,
-      "logps/rejected": -40.98769760131836,
-      "loss": 0.5358,
-      "losses/dpo": 0.6388107538223267,
-      "losses/sft": 0.21662825345993042,
-      "losses/total": 0.6388107538223267,
-      "ref_logps/chosen": -48.840187072753906,
-      "ref_logps/rejected": -37.24340057373047,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": 0.010484418831765652,
-      "rewards/margins": 0.38491398096084595,
-      "rewards/rejected": -0.3744295537471771,
       "step": 24
     },
     {
       "epoch": 0.34,
-      "grad_norm": 31.571769897086057,
       "learning_rate": 4.2025396469669926e-07,
-      "logps/chosen": -49.65196228027344,
-      "logps/rejected": -39.15043258666992,
-      "loss": 0.5317,
-      "losses/dpo": 0.4821869134902954,
-      "losses/sft": 0.2129327803850174,
-      "losses/total": 0.4821869134902954,
-      "ref_logps/chosen": -49.09580993652344,
-      "ref_logps/rejected": -34.47374725341797,
-      "rewards/accuracies": 0.8828125,
-      "rewards/chosen": -0.05561504885554314,
-      "rewards/margins": 0.41205331683158875,
-      "rewards/rejected": -0.467668354511261,
       "step": 25
     },
     {
       "epoch": 0.36,
-      "grad_norm": 20.54896163205101,
       "learning_rate": 4.112105531840426e-07,
-      "logps/chosen": -50.22370529174805,
-      "logps/rejected": -38.49211120605469,
-      "loss": 0.5133,
-      "losses/dpo": 0.6953214406967163,
-      "losses/sft": 0.1770307421684265,
-      "losses/total": 0.6953214406967163,
-      "ref_logps/chosen": -49.23892593383789,
-      "ref_logps/rejected": -32.732269287109375,
-      "rewards/accuracies": 0.8671875,
-      "rewards/chosen": -0.09847792983055115,
-      "rewards/margins": 0.4775061011314392,
-      "rewards/rejected": -0.575984001159668,
       "step": 26
     },
     {
       "epoch": 0.37,
-      "grad_norm": 24.210290197713302,
       "learning_rate": 4.017906269546778e-07,
-      "logps/chosen": -48.78424072265625,
-      "logps/rejected": -39.4119758605957,
-      "loss": 0.5025,
-      "losses/dpo": 0.2536649703979492,
-      "losses/sft": 0.17507979273796082,
-      "losses/total": 0.2536649703979492,
-      "ref_logps/chosen": -47.147621154785156,
-      "ref_logps/rejected": -32.35851287841797,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.16366226971149445,
-      "rewards/margins": 0.5416839718818665,
-      "rewards/rejected": -0.7053462266921997,
       "step": 27
     },
     {
       "epoch": 0.38,
-      "grad_norm": 25.054325101536794,
       "learning_rate": 3.920161866827889e-07,
-      "logps/chosen": -46.48284912109375,
-      "logps/rejected": -40.55732727050781,
-      "loss": 0.5225,
-      "losses/dpo": 0.6159500479698181,
-      "losses/sft": 0.18471354246139526,
-      "losses/total": 0.6159500479698181,
-      "ref_logps/chosen": -44.64717102050781,
-      "ref_logps/rejected": -34.08299255371094,
       "rewards/accuracies": 0.84375,
-      "rewards/chosen": -0.18356791138648987,
-      "rewards/margins": 0.46386560797691345,
-      "rewards/rejected": -0.6474335193634033,
       "step": 28
     },
     {
       "epoch": 0.4,
-      "grad_norm": 25.059885652690767,
       "learning_rate": 3.8191006102653317e-07,
-      "logps/chosen": -50.65240478515625,
-      "logps/rejected": -44.85976028442383,
-      "loss": 0.4509,
-      "losses/dpo": 0.5429763793945312,
-      "losses/sft": 0.19810011982917786,
-      "losses/total": 0.5429763793945312,
-      "ref_logps/chosen": -47.85638427734375,
-      "ref_logps/rejected": -35.169281005859375,
-      "rewards/accuracies": 0.9140625,
-      "rewards/chosen": -0.27960240840911865,
-      "rewards/margins": 0.6894451975822449,
-      "rewards/rejected": -0.9690475463867188,
       "step": 29
     },
     {
       "epoch": 0.41,
-      "grad_norm": 19.99856582783424,
       "learning_rate": 3.7149585331065145e-07,
-      "logps/chosen": -49.85383605957031,
-      "logps/rejected": -45.81809997558594,
-      "loss": 0.4332,
-      "losses/dpo": 0.29431843757629395,
-      "losses/sft": 0.18581561744213104,
-      "losses/total": 0.29431843757629395,
-      "ref_logps/chosen": -46.770938873291016,
-      "ref_logps/rejected": -34.5809326171875,
-      "rewards/accuracies": 0.8671875,
-      "rewards/chosen": -0.3082895576953888,
-      "rewards/margins": 0.8154268264770508,
-      "rewards/rejected": -1.1237163543701172,
       "step": 30
     },
     {
       "epoch": 0.42,
-      "grad_norm": 34.79633257386577,
       "learning_rate": 3.6079788639981036e-07,
-      "logps/chosen": -52.836326599121094,
-      "logps/rejected": -46.93244934082031,
-      "loss": 0.4604,
-      "losses/dpo": 0.8810983300209045,
-      "losses/sft": 0.23828193545341492,
-      "losses/total": 0.8810983300209045,
-      "ref_logps/chosen": -49.11648178100586,
-      "ref_logps/rejected": -36.381752014160156,
-      "rewards/accuracies": 0.8984375,
-      "rewards/chosen": -0.3719848394393921,
-      "rewards/margins": 0.6830847263336182,
-      "rewards/rejected": -1.0550695657730103,
       "step": 31
     },
     {
       "epoch": 0.44,
-      "grad_norm": 23.026509844905394,
       "learning_rate": 3.498411458914238e-07,
-      "logps/chosen": -50.38003921508789,
-      "logps/rejected": -45.10429763793945,
-      "loss": 0.4393,
-      "losses/dpo": 0.15313033759593964,
-      "losses/sft": 0.19763650000095367,
-      "losses/total": 0.15313033759593964,
-      "ref_logps/chosen": -46.028076171875,
-      "ref_logps/rejected": -33.00657272338867,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -0.4351964592933655,
-      "rewards/margins": 0.7745760679244995,
-      "rewards/rejected": -1.2097725868225098,
       "step": 32
     },
     {
       "epoch": 0.45,
-      "grad_norm": 18.317574609447647,
       "learning_rate": 3.3865122176063385e-07,
-      "logps/chosen": -51.4942512512207,
-      "logps/rejected": -49.96583557128906,
-      "loss": 0.4075,
-      "losses/dpo": 0.1953999102115631,
-      "losses/sft": 0.29790106415748596,
-      "losses/total": 0.1953999102115631,
-      "ref_logps/chosen": -45.6589469909668,
-      "ref_logps/rejected": -34.858577728271484,
-      "rewards/accuracies": 0.8515625,
-      "rewards/chosen": -0.5835303068161011,
-      "rewards/margins": 0.9271953105926514,
-      "rewards/rejected": -1.510725736618042,
       "step": 33
     },
     {
       "epoch": 0.47,
-      "grad_norm": 19.255871137244554,
       "learning_rate": 3.272542485937368e-07,
-      "logps/chosen": -50.351234436035156,
-      "logps/rejected": -48.89935302734375,
-      "loss": 0.3959,
-      "losses/dpo": 0.4281933605670929,
-      "losses/sft": 0.19774244725704193,
-      "losses/total": 0.4281933605670929,
-      "ref_logps/chosen": -43.48761749267578,
-      "ref_logps/rejected": -32.255577087402344,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": -0.68636155128479,
-      "rewards/margins": 0.9780160188674927,
-      "rewards/rejected": -1.6643775701522827,
       "step": 34
     },
     {
       "epoch": 0.48,
-      "grad_norm": 17.53385145494046,
       "learning_rate": 3.1567684454964674e-07,
-      "logps/chosen": -49.46981430053711,
-      "logps/rejected": -49.80710220336914,
-      "loss": 0.4011,
-      "losses/dpo": 0.5663512945175171,
-      "losses/sft": 0.24904295802116394,
-      "losses/total": 0.5663512945175171,
-      "ref_logps/chosen": -42.88325500488281,
-      "ref_logps/rejected": -33.13590621948242,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -0.6586559414863586,
-      "rewards/margins": 1.0084636211395264,
-      "rewards/rejected": -1.6671196222305298,
       "step": 35
     },
     {
       "epoch": 0.49,
-      "grad_norm": 157.5390863725062,
       "learning_rate": 3.0394604919195157e-07,
-      "logps/chosen": -50.14772415161133,
-      "logps/rejected": -49.97753143310547,
-      "loss": 0.4132,
-      "losses/dpo": 0.6134005784988403,
-      "losses/sft": 0.1941785216331482,
-      "losses/total": 0.6134005784988403,
-      "ref_logps/chosen": -42.886375427246094,
-      "ref_logps/rejected": -32.889442443847656,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": -0.7261347770690918,
-      "rewards/margins": 0.9826743006706238,
-      "rewards/rejected": -1.7088091373443604,
       "step": 36
     },
     {
       "epoch": 0.51,
-      "grad_norm": 30.744138000924785,
       "learning_rate": 2.920892603367596e-07,
-      "logps/chosen": -52.53690719604492,
-      "logps/rejected": -51.7293701171875,
-      "loss": 0.4345,
-      "losses/dpo": 0.39982184767723083,
-      "losses/sft": 0.16318069398403168,
-      "losses/total": 0.39982184767723083,
-      "ref_logps/chosen": -44.043270111083984,
-      "ref_logps/rejected": -33.67184066772461,
-      "rewards/accuracies": 0.8203125,
-      "rewards/chosen": -0.8493636250495911,
-      "rewards/margins": 0.956389307975769,
-      "rewards/rejected": -1.8057528734207153,
       "step": 37
     },
     {
       "epoch": 0.52,
-      "grad_norm": 18.608606064784283,
       "learning_rate": 2.801341700638307e-07,
-      "logps/chosen": -54.247406005859375,
-      "logps/rejected": -51.46720886230469,
-      "loss": 0.4308,
-      "losses/dpo": 0.7559365630149841,
-      "losses/sft": 0.20898960530757904,
-      "losses/total": 0.7559365630149841,
-      "ref_logps/chosen": -47.05962371826172,
-      "ref_logps/rejected": -34.95857238769531,
-      "rewards/accuracies": 0.828125,
-      "rewards/chosen": -0.7187784910202026,
-      "rewards/margins": 0.9320851564407349,
-      "rewards/rejected": -1.6508636474609375,
       "step": 38
     },
     {
       "epoch": 0.53,
-      "grad_norm": 47.98397942977545,
       "learning_rate": 2.681087000404406e-07,
-      "logps/chosen": -53.239768981933594,
-      "logps/rejected": -52.34550476074219,
-      "loss": 0.3907,
-      "losses/dpo": 0.31572413444519043,
-      "losses/sft": 0.18499067425727844,
-      "losses/total": 0.31572413444519043,
-      "ref_logps/chosen": -45.19135284423828,
-      "ref_logps/rejected": -33.13307189941406,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -0.8048416972160339,
-      "rewards/margins": 1.1164013147354126,
-      "rewards/rejected": -1.9212429523468018,
       "step": 39
     },
     {
       "epoch": 0.55,
-      "grad_norm": 21.523748609052035,
       "learning_rate": 2.5604093630903305e-07,
-      "logps/chosen": -53.806236267089844,
-      "logps/rejected": -54.13373565673828,
-      "loss": 0.3678,
-      "losses/dpo": 0.6854045391082764,
-      "losses/sft": 0.21097487211227417,
-      "losses/total": 0.6854045391082764,
-      "ref_logps/chosen": -44.96014404296875,
-      "ref_logps/rejected": -34.04387664794922,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -0.8846092224121094,
-      "rewards/margins": 1.1243770122528076,
-      "rewards/rejected": -2.008985996246338,
       "step": 40
     },
     {
       "epoch": 0.56,
-      "grad_norm": 20.63046978113073,
       "learning_rate": 2.43959063690967e-07,
-      "logps/chosen": -56.91130065917969,
-      "logps/rejected": -54.714378356933594,
-      "loss": 0.3872,
-      "losses/dpo": 0.1204671785235405,
-      "losses/sft": 0.17937365174293518,
-      "losses/total": 0.1204671785235405,
-      "ref_logps/chosen": -47.74310302734375,
-      "ref_logps/rejected": -34.866615295410156,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": -0.9168204069137573,
-      "rewards/margins": 1.0679559707641602,
-      "rewards/rejected": -1.984776258468628,
       "step": 41
     },
     {
       "epoch": 0.58,
-      "grad_norm": 27.841791874606287,
       "learning_rate": 2.3189129995955942e-07,
-      "logps/chosen": -56.37548065185547,
-      "logps/rejected": -55.140594482421875,
-      "loss": 0.3703,
-      "losses/dpo": 0.6694349646568298,
-      "losses/sft": 0.15415219962596893,
-      "losses/total": 0.6694349646568298,
-      "ref_logps/chosen": -46.114707946777344,
-      "ref_logps/rejected": -33.19464111328125,
-      "rewards/accuracies": 0.8671875,
-      "rewards/chosen": -1.0260775089263916,
-      "rewards/margins": 1.16851806640625,
-      "rewards/rejected": -2.1945955753326416,
       "step": 42
     },
     {
       "epoch": 0.59,
-      "grad_norm": 20.157417684445996,
       "learning_rate": 2.1986582993616925e-07,
-      "logps/chosen": -55.861724853515625,
-      "logps/rejected": -55.27591323852539,
-      "loss": 0.4096,
-      "losses/dpo": 0.253600537776947,
-      "losses/sft": 0.25442296266555786,
-      "losses/total": 0.253600537776947,
-      "ref_logps/chosen": -46.024993896484375,
-      "ref_logps/rejected": -34.88616180419922,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": -0.9836731553077698,
-      "rewards/margins": 1.0553019046783447,
-      "rewards/rejected": -2.038975238800049,
       "step": 43
     },
     {
       "epoch": 0.6,
-      "grad_norm": 22.91868411351925,
       "learning_rate": 2.0791073966324034e-07,
-      "logps/chosen": -56.3699836730957,
-      "logps/rejected": -58.20032501220703,
-      "loss": 0.3645,
-      "losses/dpo": 0.05803808197379112,
-      "losses/sft": 0.16261443495750427,
-      "losses/total": 0.05803808197379112,
-      "ref_logps/chosen": -46.18814468383789,
-      "ref_logps/rejected": -35.7181396484375,
-      "rewards/accuracies": 0.8828125,
-      "rewards/chosen": -1.018183708190918,
-      "rewards/margins": 1.230034351348877,
-      "rewards/rejected": -2.248218059539795,
       "step": 44
     },
     {
       "epoch": 0.62,
-      "grad_norm": 24.665726952614282,
       "learning_rate": 1.960539508080485e-07,
-      "logps/chosen": -55.33811569213867,
-      "logps/rejected": -56.2475700378418,
-      "loss": 0.4363,
-      "losses/dpo": 0.6756047606468201,
-      "losses/sft": 0.1989610195159912,
-      "losses/total": 0.6756047606468201,
-      "ref_logps/chosen": -42.876373291015625,
-      "ref_logps/rejected": -33.306602478027344,
-      "rewards/accuracies": 0.8125,
-      "rewards/chosen": -1.2461739778518677,
-      "rewards/margins": 1.0479230880737305,
-      "rewards/rejected": -2.2940969467163086,
       "step": 45
     },
     {
       "epoch": 0.63,
-      "grad_norm": 35.04495782063734,
       "learning_rate": 1.8432315545035327e-07,
-      "logps/chosen": -59.337791442871094,
-      "logps/rejected": -60.82359313964844,
-      "loss": 0.3701,
-      "losses/dpo": 0.24237556755542755,
-      "losses/sft": 0.14872561395168304,
-      "losses/total": 0.24237556755542755,
-      "ref_logps/chosen": -46.916419982910156,
-      "ref_logps/rejected": -36.144935607910156,
-      "rewards/accuracies": 0.8671875,
-      "rewards/chosen": -1.2421373128890991,
-      "rewards/margins": 1.2257287502288818,
-      "rewards/rejected": -2.4678661823272705,
       "step": 46
     },
     {
       "epoch": 0.64,
-      "grad_norm": 18.874251761700755,
       "learning_rate": 1.7274575140626315e-07,
-      "logps/chosen": -60.359886169433594,
-      "logps/rejected": -56.043479919433594,
-      "loss": 0.3903,
-      "losses/dpo": 0.6876823902130127,
-      "losses/sft": 0.163571298122406,
-      "losses/total": 0.6876823902130127,
-      "ref_logps/chosen": -49.23930358886719,
-      "ref_logps/rejected": -34.02153778076172,
-      "rewards/accuracies": 0.8984375,
-      "rewards/chosen": -1.1120576858520508,
-      "rewards/margins": 1.0901365280151367,
-      "rewards/rejected": -2.2021942138671875,
       "step": 47
     },
     {
       "epoch": 0.66,
-      "grad_norm": 29.114539057876968,
       "learning_rate": 1.6134877823936607e-07,
-      "logps/chosen": -60.98393249511719,
-      "logps/rejected": -58.489444732666016,
-      "loss": 0.4011,
-      "losses/dpo": 0.03265048563480377,
-      "losses/sft": 0.14689283072948456,
-      "losses/total": 0.03265048563480377,
-      "ref_logps/chosen": -49.34606170654297,
-      "ref_logps/rejected": -36.67803955078125,
-      "rewards/accuracies": 0.8671875,
-      "rewards/chosen": -1.1637871265411377,
-      "rewards/margins": 1.0173530578613281,
-      "rewards/rejected": -2.181140184402466,
       "step": 48
     },
     {
       "epoch": 0.67,
-      "grad_norm": 21.107662898541907,
       "learning_rate": 1.5015885410857614e-07,
-      "logps/chosen": -60.81307601928711,
-      "logps/rejected": -59.90397262573242,
-      "loss": 0.3897,
-      "losses/dpo": 0.33075177669525146,
-      "losses/sft": 0.214824840426445,
-      "losses/total": 0.33075177669525146,
-      "ref_logps/chosen": -46.25496292114258,
-      "ref_logps/rejected": -33.91436004638672,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": -1.4558112621307373,
-      "rewards/margins": 1.143149971961975,
-      "rewards/rejected": -2.598961114883423,
       "step": 49
     },
     {
       "epoch": 0.68,
-      "grad_norm": 26.95108201172052,
       "learning_rate": 1.392021136001897e-07,
-      "logps/chosen": -56.23418426513672,
-      "logps/rejected": -56.328125,
-      "loss": 0.3964,
-      "losses/dpo": 0.03794693946838379,
-      "losses/sft": 0.19881302118301392,
-      "losses/total": 0.03794693946838379,
-      "ref_logps/chosen": -42.96794891357422,
-      "ref_logps/rejected": -32.164451599121094,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.3266233205795288,
-      "rewards/margins": 1.089743971824646,
-      "rewards/rejected": -2.416367530822754,
       "step": 50
     },
     {
       "epoch": 0.7,
-      "grad_norm": 33.76828619344551,
       "learning_rate": 1.2850414668934847e-07,
-      "logps/chosen": -61.50416946411133,
-      "logps/rejected": -59.79325485229492,
-      "loss": 0.3827,
-      "losses/dpo": 0.5413109660148621,
-      "losses/sft": 0.30467280745506287,
-      "losses/total": 0.5413109660148621,
-      "ref_logps/chosen": -48.96829605102539,
-      "ref_logps/rejected": -35.99717330932617,
-      "rewards/accuracies": 0.9375,
-      "rewards/chosen": -1.2535876035690308,
-      "rewards/margins": 1.1260210275650024,
-      "rewards/rejected": -2.379608631134033,
       "step": 51
     },
     {
       "epoch": 0.71,
-      "grad_norm": 16.559964106722745,
       "learning_rate": 1.1808993897346678e-07,
-      "logps/chosen": -58.611270904541016,
-      "logps/rejected": -58.919395446777344,
-      "loss": 0.3796,
-      "losses/dpo": 0.3290981352329254,
-      "losses/sft": 0.19547075033187866,
-      "losses/total": 0.3290981352329254,
-      "ref_logps/chosen": -46.96087646484375,
-      "ref_logps/rejected": -36.086090087890625,
-      "rewards/accuracies": 0.90625,
-      "rewards/chosen": -1.1650400161743164,
-      "rewards/margins": 1.1182900667190552,
-      "rewards/rejected": -2.283329963684082,
       "step": 52
     },
     {
       "epoch": 0.73,
-      "grad_norm": 25.26391431571928,
       "learning_rate": 1.0798381331721107e-07,
-      "logps/chosen": -58.2769775390625,
-      "logps/rejected": -57.12656021118164,
-      "loss": 0.3707,
-      "losses/dpo": 0.3912191092967987,
-      "losses/sft": 0.20826196670532227,
-      "losses/total": 0.3912191092967987,
-      "ref_logps/chosen": -46.01140213012695,
-      "ref_logps/rejected": -32.54326629638672,
-      "rewards/accuracies": 0.859375,
-      "rewards/chosen": -1.226557731628418,
-      "rewards/margins": 1.2317723035812378,
-      "rewards/rejected": -2.4583301544189453,
       "step": 53
     },
     {
       "epoch": 0.74,
-      "grad_norm": 18.669814077600197,
       "learning_rate": 9.82093730453222e-08,
-      "logps/chosen": -57.36506271362305,
-      "logps/rejected": -57.83528137207031,
-      "loss": 0.4249,
-      "losses/dpo": 0.28024712204933167,
-      "losses/sft": 0.21661897003650665,
-      "losses/total": 0.28024712204933167,
-      "ref_logps/chosen": -44.405941009521484,
-      "ref_logps/rejected": -34.53661346435547,
-      "rewards/accuracies": 0.8671875,
-      "rewards/chosen": -1.295912265777588,
-      "rewards/margins": 1.0339548587799072,
-      "rewards/rejected": -2.329867124557495,
       "step": 54
     },
     {
       "epoch": 0.75,
-      "grad_norm": 17.65819121351904,
       "learning_rate": 8.87894468159574e-08,
-      "logps/chosen": -60.354469299316406,
-      "logps/rejected": -60.50645065307617,
-      "loss": 0.3985,
-      "losses/dpo": 0.9817911386489868,
-      "losses/sft": 0.1904633343219757,
-      "losses/total": 0.9817911386489868,
-      "ref_logps/chosen": -46.499290466308594,
-      "ref_logps/rejected": -34.763404846191406,
-      "rewards/accuracies": 0.8359375,
-      "rewards/chosen": -1.3855178356170654,
-      "rewards/margins": 1.1887872219085693,
-      "rewards/rejected": -2.5743050575256348,
       "step": 55
     },
     {
       "epoch": 0.77,
-      "grad_norm": 23.90292670438398,
       "learning_rate": 7.974603530330067e-08,
-      "logps/chosen": -55.58333206176758,
-      "logps/rejected": -55.52084732055664,
-      "loss": 0.3777,
-      "losses/dpo": 0.04075286537408829,
-      "losses/sft": 0.22049269080162048,
-      "losses/total": 0.04075286537408829,
-      "ref_logps/chosen": -43.25560760498047,
-      "ref_logps/rejected": -31.006759643554688,
-      "rewards/accuracies": 0.8828125,
-      "rewards/chosen": -1.2327725887298584,
-      "rewards/margins": 1.2186365127563477,
-      "rewards/rejected": -2.451408863067627,
       "step": 56
     },
     {
       "epoch": 0.78,
-      "grad_norm": 28.08593658686289,
       "learning_rate": 7.110025981396975e-08,
-      "logps/chosen": -58.75514221191406,
-      "logps/rejected": -58.784584045410156,
-      "loss": 0.4449,
-      "losses/dpo": 0.4793856143951416,
-      "losses/sft": 0.20940393209457397,
-      "losses/total": 0.4793856143951416,
-      "ref_logps/chosen": -45.29600524902344,
-      "ref_logps/rejected": -34.97162628173828,
-      "rewards/accuracies": 0.8046875,
-      "rewards/chosen": -1.3459134101867676,
-      "rewards/margins": 1.0353822708129883,
-      "rewards/rejected": -2.381295680999756,
       "step": 57
     },
     {
       "epoch": 0.79,
-      "grad_norm": 24.077339089176505,
       "learning_rate": 6.28723129572247e-08,
-      "logps/chosen": -55.75697326660156,
-      "logps/rejected": -56.72669219970703,
-      "loss": 0.3567,
-      "losses/dpo": 0.21238191425800323,
-      "losses/sft": 0.1661817878484726,
-      "losses/total": 0.21238191425800323,
-      "ref_logps/chosen": -44.3855094909668,
-      "ref_logps/rejected": -32.21479797363281,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -1.137147068977356,
-      "rewards/margins": 1.314042568206787,
-      "rewards/rejected": -2.4511895179748535,
       "step": 58
     },
     {
       "epoch": 0.81,
-      "grad_norm": 43.46612828134844,
       "learning_rate": 5.508141148419443e-08,
-      "logps/chosen": -61.76049041748047,
-      "logps/rejected": -62.041648864746094,
-      "loss": 0.3688,
-      "losses/dpo": 0.27996987104415894,
-      "losses/sft": 0.1737639456987381,
-      "losses/total": 0.27996987104415894,
-      "ref_logps/chosen": -49.25553894042969,
-      "ref_logps/rejected": -36.210182189941406,
-      "rewards/accuracies": 0.84375,
-      "rewards/chosen": -1.250495195388794,
-      "rewards/margins": 1.3326513767242432,
-      "rewards/rejected": -2.583146572113037,
       "step": 59
     },
     {
       "epoch": 0.82,
-      "grad_norm": 22.779198271573037,
       "learning_rate": 4.774575140626316e-08,
-      "logps/chosen": -55.46681594848633,
-      "logps/rejected": -57.17453384399414,
-      "loss": 0.3531,
-      "losses/dpo": 0.046613942831754684,
-      "losses/sft": 0.20427729189395905,
-      "losses/total": 0.046613942831754684,
-      "ref_logps/chosen": -42.29081726074219,
-      "ref_logps/rejected": -30.75497817993164,
-      "rewards/accuracies": 0.8984375,
-      "rewards/chosen": -1.3175995349884033,
-      "rewards/margins": 1.3243558406829834,
-      "rewards/rejected": -2.6419553756713867,
       "step": 60
     },
     {
       "epoch": 0.84,
-      "grad_norm": 20.59368424342303,
       "learning_rate": 4.0882465497443313e-08,
-      "logps/chosen": -58.52223587036133,
-      "logps/rejected": -56.04042053222656,
-      "loss": 0.3923,
-      "losses/dpo": 0.26003214716911316,
-      "losses/sft": 0.17392012476921082,
-      "losses/total": 0.26003214716911316,
-      "ref_logps/chosen": -48.404632568359375,
-      "ref_logps/rejected": -34.86602783203125,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -1.0117601156234741,
-      "rewards/margins": 1.1056792736053467,
-      "rewards/rejected": -2.1174392700195312,
       "step": 61
     },
     {
       "epoch": 0.85,
-      "grad_norm": 23.660376428219948,
       "learning_rate": 3.450758327998768e-08,
-      "logps/chosen": -60.401039123535156,
-      "logps/rejected": -60.10982131958008,
-      "loss": 0.3902,
-      "losses/dpo": 0.01773645170032978,
-      "losses/sft": 0.17717282474040985,
-      "losses/total": 0.01773645170032978,
-      "ref_logps/chosen": -48.241943359375,
-      "ref_logps/rejected": -34.582366943359375,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -1.215909719467163,
-      "rewards/margins": 1.3368357419967651,
-      "rewards/rejected": -2.5527453422546387,
       "step": 62
     },
     {
       "epoch": 0.86,
-      "grad_norm": 86.96881294099092,
       "learning_rate": 2.863599358669755e-08,
-      "logps/chosen": -56.905418395996094,
-      "logps/rejected": -56.808746337890625,
-      "loss": 0.3944,
-      "losses/dpo": 0.15065120160579681,
-      "losses/sft": 0.22477349638938904,
-      "losses/total": 0.15065120160579681,
-      "ref_logps/chosen": -44.15583038330078,
-      "ref_logps/rejected": -33.21840286254883,
-      "rewards/accuracies": 0.828125,
-      "rewards/chosen": -1.2749593257904053,
-      "rewards/margins": 1.0840749740600586,
-      "rewards/rejected": -2.359034299850464,
       "step": 63
     },
     {
       "epoch": 0.88,
-      "grad_norm": 18.8337077576639,
       "learning_rate": 2.3281409787363648e-08,
-      "logps/chosen": -57.604774475097656,
-      "logps/rejected": -57.78453063964844,
-      "loss": 0.3863,
-      "losses/dpo": 0.41682732105255127,
-      "losses/sft": 0.16616390645503998,
-      "losses/total": 0.41682732105255127,
-      "ref_logps/chosen": -43.315818786621094,
-      "ref_logps/rejected": -31.524248123168945,
-      "rewards/accuracies": 0.8671875,
-      "rewards/chosen": -1.4288955926895142,
-      "rewards/margins": 1.1971325874328613,
-      "rewards/rejected": -2.626028537750244,
       "step": 64
     },
     {
       "epoch": 0.89,
-      "grad_norm": 374.1054719017444,
       "learning_rate": 1.845633776055591e-08,
-      "logps/chosen": -57.63691711425781,
-      "logps/rejected": -58.3455810546875,
-      "loss": 0.3882,
-      "losses/dpo": 0.26508828997612,
-      "losses/sft": 0.2718198001384735,
-      "losses/total": 0.26508828997612,
-      "ref_logps/chosen": -44.429481506347656,
-      "ref_logps/rejected": -33.13744354248047,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.3207435607910156,
-      "rewards/margins": 1.2000699043273926,
-      "rewards/rejected": -2.520813465118408,
       "step": 65
     },
     {
       "epoch": 0.9,
-      "grad_norm": 26.70970124014032,
       "learning_rate": 1.4172046685564209e-08,
-      "logps/chosen": -58.663551330566406,
-      "logps/rejected": -58.07282257080078,
-      "loss": 0.3962,
-      "losses/dpo": 0.08177483081817627,
-      "losses/sft": 0.18531636893749237,
-      "losses/total": 0.08177483081817627,
-      "ref_logps/chosen": -45.821983337402344,
-      "ref_logps/rejected": -33.62261199951172,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.2841567993164062,
-      "rewards/margins": 1.1608643531799316,
-      "rewards/rejected": -2.445021390914917,
       "step": 66
     },
     {
       "epoch": 0.92,
-      "grad_norm": 25.593261462625442,
       "learning_rate": 1.0438542722708444e-08,
-      "logps/chosen": -59.08097839355469,
-      "logps/rejected": -59.16502380371094,
-      "loss": 0.3836,
-      "losses/dpo": 0.02788337506353855,
-      "losses/sft": 0.19819076359272003,
-      "losses/total": 0.02788337506353855,
-      "ref_logps/chosen": -45.94892883300781,
-      "ref_logps/rejected": -33.597511291503906,
-      "rewards/accuracies": 0.8828125,
-      "rewards/chosen": -1.3132052421569824,
-      "rewards/margins": 1.2435462474822998,
-      "rewards/rejected": -2.556751251220703,
       "step": 67
     },
     {
       "epoch": 0.93,
-      "grad_norm": 25.28796063034412,
       "learning_rate": 7.2645456434869965e-09,
-      "logps/chosen": -57.95222473144531,
-      "logps/rejected": -58.91720199584961,
-      "loss": 0.3915,
-      "losses/dpo": 1.2907841205596924,
-      "losses/sft": 0.20458956062793732,
-      "losses/total": 1.2907841205596924,
-      "ref_logps/chosen": -45.50114440917969,
-      "ref_logps/rejected": -35.063446044921875,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -1.2451080083847046,
-      "rewards/margins": 1.140267252922058,
-      "rewards/rejected": -2.385375499725342,
       "step": 68
     },
     {
       "epoch": 0.95,
-      "grad_norm": 30.554099185463503,
       "learning_rate": 4.657468465146641e-09,
-      "logps/chosen": -57.99516296386719,
-      "logps/rejected": -55.496768951416016,
-      "loss": 0.3752,
-      "losses/dpo": 0.20264464616775513,
-      "losses/sft": 0.17493540048599243,
-      "losses/total": 0.20264464616775513,
-      "ref_logps/chosen": -47.58026123046875,
-      "ref_logps/rejected": -33.345062255859375,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -1.041489839553833,
-      "rewards/margins": 1.1736811399459839,
-      "rewards/rejected": -2.2151710987091064,
       "step": 69
     },
     {
       "epoch": 0.96,
-      "grad_norm": 21.555895701368716,
       "learning_rate": 2.6234001372372193e-09,
-      "logps/chosen": -55.79784393310547,
-      "logps/rejected": -54.85697555541992,
-      "loss": 0.4513,
-      "losses/dpo": 0.6288288235664368,
-      "losses/sft": 0.25858786702156067,
-      "losses/total": 0.6288288235664368,
-      "ref_logps/chosen": -42.008121490478516,
-      "ref_logps/rejected": -31.47281265258789,
-      "rewards/accuracies": 0.828125,
-      "rewards/chosen": -1.3789721727371216,
-      "rewards/margins": 0.9594441056251526,
-      "rewards/rejected": -2.338416337966919,
       "step": 70
     },
     {
       "epoch": 0.97,
-      "grad_norm": 21.73384383499147,
       "learning_rate": 1.167091320587843e-09,
-      "logps/chosen": -56.99696350097656,
-      "logps/rejected": -59.2013053894043,
-      "loss": 0.3554,
-      "losses/dpo": 0.09169570356607437,
-      "losses/sft": 0.20991858839988708,
-      "losses/total": 0.09169570356607437,
-      "ref_logps/chosen": -42.36278533935547,
-      "ref_logps/rejected": -31.79424476623535,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -1.463417887687683,
-      "rewards/margins": 1.2772881984710693,
-      "rewards/rejected": -2.740705966949463,
       "step": 71
     },
     {
       "epoch": 0.99,
-      "grad_norm": 30.958564799186906,
       "learning_rate": 2.9194329191833953e-10,
-      "logps/chosen": -58.35291290283203,
-      "logps/rejected": -56.74859619140625,
-      "loss": 0.3706,
-      "losses/dpo": 0.3077165484428406,
-      "losses/sft": 0.17356029152870178,
-      "losses/total": 0.3077165484428406,
-      "ref_logps/chosen": -44.90869903564453,
-      "ref_logps/rejected": -31.324697494506836,
-      "rewards/accuracies": 0.890625,
-      "rewards/chosen": -1.34442138671875,
-      "rewards/margins": 1.197968602180481,
-      "rewards/rejected": -2.5423898696899414,
       "step": 72
     },
     {
       "epoch": 1.0,
-      "grad_norm": 20.514487251091158,
       "learning_rate": 0.0,
-      "logps/chosen": -55.3281135559082,
-      "logps/rejected": -54.42873764038086,
-      "loss": 0.4185,
-      "losses/dpo": 0.45331382751464844,
-      "losses/sft": 0.16170088946819305,
-      "losses/total": 0.45331382751464844,
-      "ref_logps/chosen": -42.832916259765625,
-      "ref_logps/rejected": -31.545093536376953,
-      "rewards/accuracies": 0.875,
-      "rewards/chosen": -1.2495195865631104,
-      "rewards/margins": 1.0388449430465698,
-      "rewards/rejected": -2.2883644104003906,
       "step": 73
     },
     {
       "epoch": 1.0,
       "step": 73,
       "total_flos": 0.0,
-      "train_loss": 0.4880054197082781,
-      "train_runtime": 1195.1879,
-      "train_samples_per_second": 7.883,
       "train_steps_per_second": 0.061
     }
   ],
@@ -1336,7 +1336,7 @@
   "max_steps": 73,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
-  "save_steps": 1000,
   "total_flos": 0.0,
   "train_batch_size": 1,
   "trial_name": null,

   "log_history": [
     {
       "epoch": 0.01,
+      "grad_norm": 31.510919537856985,
       "learning_rate": 6.25e-08,
+      "logps/chosen": -49.24467849731445,
+      "logps/rejected": -39.578514099121094,
+      "loss": 0.7008,
+      "losses/dpo": 0.6596390604972839,
+      "losses/sft": 0.17909570038318634,
+      "losses/total": 0.6596390604972839,
+      "ref_logps/chosen": -49.112640380859375,
+      "ref_logps/rejected": -39.590065002441406,
+      "rewards/accuracies": 0.4296875,
+      "rewards/chosen": -0.013204257935285568,
+      "rewards/margins": -0.01435948722064495,
+      "rewards/rejected": 0.001155228354036808,
       "step": 1
     },
     {
       "epoch": 0.03,
+      "grad_norm": 50.71439940508435,
       "learning_rate": 1.25e-07,
+      "logps/chosen": -53.134193420410156,
+      "logps/rejected": -47.03993225097656,
+      "loss": 0.6899,
+      "losses/dpo": 0.6913646459579468,
+      "losses/sft": 0.1710137277841568,
+      "losses/total": 0.6913646459579468,
+      "ref_logps/chosen": -53.1795768737793,
+      "ref_logps/rejected": -47.00617599487305,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": 0.004538209177553654,
+      "rewards/margins": 0.007913690991699696,
+      "rewards/rejected": -0.0033754808828234673,
       "step": 2
     },
     {
       "epoch": 0.04,
+      "grad_norm": 42.035900231625114,
       "learning_rate": 1.875e-07,
+      "logps/chosen": -51.67204666137695,
+      "logps/rejected": -42.43119812011719,
+      "loss": 0.6908,
+      "losses/dpo": 0.6752724647521973,
+      "losses/sft": 0.1361423283815384,
+      "losses/total": 0.6752724647521973,
+      "ref_logps/chosen": -51.709320068359375,
+      "ref_logps/rejected": -42.41019058227539,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": 0.0037269049789756536,
+      "rewards/margins": 0.00582832982763648,
+      "rewards/rejected": -0.002101423917338252,
       "step": 3
     },
     {
       "epoch": 0.05,
+      "grad_norm": 37.529489917527485,
       "learning_rate": 2.5e-07,
+      "logps/chosen": -49.27662658691406,
+      "logps/rejected": -42.45417404174805,
+      "loss": 0.6949,
+      "losses/dpo": 0.6901852488517761,
+      "losses/sft": 0.18635118007659912,
+      "losses/total": 0.6901852488517761,
+      "ref_logps/chosen": -49.26988220214844,
+      "ref_logps/rejected": -42.47301483154297,
       "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.0006745874416083097,
+      "rewards/margins": -0.0025582504458725452,
+      "rewards/rejected": 0.0018836627714335918,
       "step": 4
     },
     {
       "epoch": 0.07,
+      "grad_norm": 33.99395990426859,
       "learning_rate": 3.1249999999999997e-07,
+      "logps/chosen": -48.10963439941406,
+      "logps/rejected": -40.53562927246094,
+      "loss": 0.693,
+      "losses/dpo": 0.6474289894104004,
+      "losses/sft": 0.1237928494811058,
+      "losses/total": 0.6474289894104004,
+      "ref_logps/chosen": -48.120365142822266,
+      "ref_logps/rejected": -40.53252410888672,
+      "rewards/accuracies": 0.4921875,
+      "rewards/chosen": 0.001073037856258452,
+      "rewards/margins": 0.001383528346195817,
+      "rewards/rejected": -0.00031049124663695693,
       "step": 5
     },
     {
       "epoch": 0.08,
+      "grad_norm": 33.57616672063881,
       "learning_rate": 3.75e-07,
+      "logps/chosen": -50.0238037109375,
+      "logps/rejected": -41.26359558105469,
+      "loss": 0.6976,
+      "losses/dpo": 0.6670458316802979,
+      "losses/sft": 0.15494827926158905,
+      "losses/total": 0.6670458316802979,
+      "ref_logps/chosen": -49.96715545654297,
+      "ref_logps/rejected": -41.28278732299805,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.005665063392370939,
+      "rewards/margins": -0.007583992555737495,
+      "rewards/rejected": 0.0019189291633665562,
       "step": 6
     },
     {
       "epoch": 0.1,
+      "grad_norm": 32.82497056854739,
       "learning_rate": 4.375e-07,
+      "logps/chosen": -51.68867111206055,
+      "logps/rejected": -43.37660217285156,
+      "loss": 0.6921,
+      "losses/dpo": 0.6866487264633179,
+      "losses/sft": 0.13379694521427155,
+      "losses/total": 0.6866487264633179,
+      "ref_logps/chosen": -51.77002716064453,
+      "ref_logps/rejected": -43.42585754394531,
       "rewards/accuracies": 0.515625,
+      "rewards/chosen": 0.008136047050356865,
+      "rewards/margins": 0.0032104291021823883,
+      "rewards/rejected": 0.004925617948174477,
       "step": 7
     },
     {
       "epoch": 0.11,
+      "grad_norm": 38.79691230760384,
       "learning_rate": 5e-07,
+      "logps/chosen": -49.79241180419922,
+      "logps/rejected": -42.46006774902344,
+      "loss": 0.695,
+      "losses/dpo": 0.6527105569839478,
+      "losses/sft": 0.15517215430736542,
+      "losses/total": 0.6527105569839478,
+      "ref_logps/chosen": -49.76615905761719,
+      "ref_logps/rejected": -42.45863342285156,
+      "rewards/accuracies": 0.4765625,
+      "rewards/chosen": -0.0026245731860399246,
+      "rewards/margins": -0.002481258474290371,
+      "rewards/rejected": -0.00014331366401165724,
       "step": 8
     },
     {
       "epoch": 0.12,
+      "grad_norm": 226.56518786863586,
       "learning_rate": 4.997080567080816e-07,
+      "logps/chosen": -54.879547119140625,
+      "logps/rejected": -42.98774719238281,
+      "loss": 0.6853,
+      "losses/dpo": 0.6064831614494324,
+      "losses/sft": 0.2268030345439911,
+      "losses/total": 0.6064831614494324,
+      "ref_logps/chosen": -54.92854309082031,
+      "ref_logps/rejected": -42.86476135253906,
+      "rewards/accuracies": 0.5546875,
+      "rewards/chosen": 0.004900116473436356,
+      "rewards/margins": 0.017198245972394943,
+      "rewards/rejected": -0.012298129498958588,
       "step": 9
     },
     {
       "epoch": 0.14,
+      "grad_norm": 50.10962021770019,
       "learning_rate": 4.988329086794122e-07,
+      "logps/chosen": -52.08982467651367,
+      "logps/rejected": -43.10820388793945,
+      "loss": 0.6755,
+      "losses/dpo": 0.7082348465919495,
+      "losses/sft": 0.1494147777557373,
+      "losses/total": 0.7082348465919495,
+      "ref_logps/chosen": -52.199188232421875,
+      "ref_logps/rejected": -42.8469123840332,
+      "rewards/accuracies": 0.7109375,
+      "rewards/chosen": 0.010936222970485687,
+      "rewards/margins": 0.0370652973651886,
+      "rewards/rejected": -0.02612907439470291,
       "step": 10
     },
     {
       "epoch": 0.15,
+      "grad_norm": 50.96166024464587,
       "learning_rate": 4.973765998627628e-07,
+      "logps/chosen": -47.0179443359375,
+      "logps/rejected": -42.876380920410156,
+      "loss": 0.6764,
+      "losses/dpo": 0.7454954385757446,
+      "losses/sft": 0.11485376209020615,
+      "losses/total": 0.7454954385757446,
+      "ref_logps/chosen": -47.048309326171875,
+      "ref_logps/rejected": -42.54939651489258,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": 0.003036007285118103,
+      "rewards/margins": 0.03573445603251457,
+      "rewards/rejected": -0.03269844502210617,
       "step": 11
     },
     {
       "epoch": 0.16,
+      "grad_norm": 43.95886877722781,
       "learning_rate": 4.953425315348533e-07,
+      "logps/chosen": -47.39234161376953,
+      "logps/rejected": -42.44198226928711,
+      "loss": 0.6802,
+      "losses/dpo": 0.6931471824645996,
+      "losses/sft": 0.1578434258699417,
+      "losses/total": 0.6931471824645996,
+      "ref_logps/chosen": -47.38432312011719,
+      "ref_logps/rejected": -42.15151596069336,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -0.0008019641973078251,
+      "rewards/margins": 0.028244582936167717,
+      "rewards/rejected": -0.029046546667814255,
       "step": 12
     },
     {
       "epoch": 0.18,
+      "grad_norm": 35.92010395880078,
       "learning_rate": 4.92735454356513e-07,
+      "logps/chosen": -47.71138381958008,
+      "logps/rejected": -40.651554107666016,
+      "loss": 0.6671,
+      "losses/dpo": 0.6601188778877258,
+      "losses/sft": 0.12200119346380234,
+      "losses/total": 0.6601188778877258,
+      "ref_logps/chosen": -47.742637634277344,
+      "ref_logps/rejected": -40.12622833251953,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": 0.003125616116449237,
+      "rewards/margins": 0.055658161640167236,
+      "rewards/rejected": -0.052532538771629333,
       "step": 13
     },
     {
       "epoch": 0.19,
+      "grad_norm": 38.42448037262164,
       "learning_rate": 4.895614572772916e-07,
+      "logps/chosen": -49.50225830078125,
+      "logps/rejected": -41.507652282714844,
+      "loss": 0.6657,
+      "losses/dpo": 0.7294200658798218,
+      "losses/sft": 0.15328460931777954,
+      "losses/total": 0.7294200658798218,
+      "ref_logps/chosen": -49.43043518066406,
+      "ref_logps/rejected": -40.846160888671875,
+      "rewards/accuracies": 0.6953125,
+      "rewards/chosen": -0.007182045839726925,
+      "rewards/margins": 0.058967407792806625,
+      "rewards/rejected": -0.06614945828914642,
       "step": 14
     },
     {
       "epoch": 0.21,
+      "grad_norm": 35.51673879153569,
       "learning_rate": 4.858279533144357e-07,
+      "logps/chosen": -50.58116149902344,
+      "logps/rejected": -44.15226745605469,
+      "loss": 0.6648,
+      "losses/dpo": 0.7195499539375305,
+      "losses/sft": 0.12852783501148224,
+      "losses/total": 0.7195499539375305,
+      "ref_logps/chosen": -50.35996627807617,
+      "ref_logps/rejected": -43.29161071777344,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -0.02211933210492134,
+      "rewards/margins": 0.06394598633050919,
+      "rewards/rejected": -0.08606532216072083,
       "step": 15
     },
     {
       "epoch": 0.22,
+      "grad_norm": 34.20405799205637,
       "learning_rate": 4.815436622394441e-07,
+      "logps/chosen": -53.629356384277344,
+      "logps/rejected": -45.9289665222168,
+      "loss": 0.6455,
+      "losses/dpo": 0.6931471824645996,
+      "losses/sft": 0.14978539943695068,
+      "losses/total": 0.6931471824645996,
+      "ref_logps/chosen": -53.546119689941406,
+      "ref_logps/rejected": -44.75611114501953,
+      "rewards/accuracies": 0.7109375,
+      "rewards/chosen": -0.00832361076027155,
+      "rewards/margins": 0.10896164178848267,
+      "rewards/rejected": -0.11728526651859283,
       "step": 16
     },
     {
       "epoch": 0.23,
+      "grad_norm": 51.47866505976329,
       "learning_rate": 4.767185902126363e-07,
+      "logps/chosen": -52.55246353149414,
+      "logps/rejected": -48.530906677246094,
+      "loss": 0.6445,
+      "losses/dpo": 0.6025716662406921,
+      "losses/sft": 0.17564229667186737,
+      "losses/total": 0.6025716662406921,
+      "ref_logps/chosen": -52.30644989013672,
+      "ref_logps/rejected": -47.189701080322266,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -0.02460121549665928,
+      "rewards/margins": 0.10951894521713257,
+      "rewards/rejected": -0.1341201663017273,
       "step": 17
     },
     {
       "epoch": 0.25,
+      "grad_norm": 42.49951077408584,
       "learning_rate": 4.7136400641330245e-07,
+      "logps/chosen": -52.193199157714844,
+      "logps/rejected": -43.489959716796875,
+      "loss": 0.6225,
+      "losses/dpo": 0.4434754252433777,
+      "losses/sft": 0.13364653289318085,
+      "losses/total": 0.4434754252433777,
+      "ref_logps/chosen": -51.82938003540039,
+      "ref_logps/rejected": -41.477630615234375,
+      "rewards/accuracies": 0.7265625,
+      "rewards/chosen": -0.03638196364045143,
+      "rewards/margins": 0.16485059261322021,
+      "rewards/rejected": -0.20123255252838135,
       "step": 18
     },
     {
       "epoch": 0.26,
+      "grad_norm": 34.30863345836372,
       "learning_rate": 4.6549241672001225e-07,
+      "logps/chosen": -49.611228942871094,
+      "logps/rejected": -46.756103515625,
+      "loss": 0.6071,
+      "losses/dpo": 0.6045699715614319,
+      "losses/sft": 0.13909928500652313,
+      "losses/total": 0.6045699715614319,
+      "ref_logps/chosen": -49.14532470703125,
+      "ref_logps/rejected": -44.29924774169922,
+      "rewards/accuracies": 0.7890625,
+      "rewards/chosen": -0.046590566635131836,
+      "rewards/margins": 0.19909515976905823,
+      "rewards/rejected": -0.24568572640419006,
       "step": 19
     },
     {
       "epoch": 0.27,
+      "grad_norm": 35.537459009303014,
       "learning_rate": 4.591175345025566e-07,
+      "logps/chosen": -50.094032287597656,
+      "logps/rejected": -46.121707916259766,
+      "loss": 0.6058,
+      "losses/dpo": 0.5356044173240662,
+      "losses/sft": 0.1512974053621292,
+      "losses/total": 0.5356044173240662,
+      "ref_logps/chosen": -49.32575607299805,
+      "ref_logps/rejected": -43.3276481628418,
+      "rewards/accuracies": 0.7578125,
+      "rewards/chosen": -0.07682754099369049,
+      "rewards/margins": 0.20257848501205444,
+      "rewards/rejected": -0.27940604090690613,
       "step": 20
     },
     {
       "epoch": 0.29,
+      "grad_norm": 82.79188209516856,
       "learning_rate": 4.5225424859373684e-07,
+      "logps/chosen": -53.73488235473633,
+      "logps/rejected": -48.036128997802734,
+      "loss": 0.5936,
+      "losses/dpo": 0.6363024711608887,
+      "losses/sft": 0.18370339274406433,
+      "losses/total": 0.6363024711608887,
+      "ref_logps/chosen": -52.835113525390625,
+      "ref_logps/rejected": -44.653133392333984,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.08997656404972076,
+      "rewards/margins": 0.24832308292388916,
+      "rewards/rejected": -0.33829963207244873,
       "step": 21
     },
     {
       "epoch": 0.3,
+      "grad_norm": 35.68500953981497,
       "learning_rate": 4.4491858851580553e-07,
+      "logps/chosen": -52.28797149658203,
+      "logps/rejected": -48.59185791015625,
+      "loss": 0.5956,
+      "losses/dpo": 0.6950743198394775,
+      "losses/sft": 0.3061237335205078,
+      "losses/total": 0.6950743198394775,
+      "ref_logps/chosen": -50.30400085449219,
+      "ref_logps/rejected": -43.93888854980469,
+      "rewards/accuracies": 0.6953125,
+      "rewards/chosen": -0.19839699566364288,
+      "rewards/margins": 0.2669002413749695,
+      "rewards/rejected": -0.46529728174209595,
       "step": 22
     },
     {
       "epoch": 0.32,
+      "grad_norm": 51.2013048213769,
       "learning_rate": 4.3712768704277524e-07,
+      "logps/chosen": -50.60584259033203,
+      "logps/rejected": -49.11386489868164,
+      "loss": 0.5413,
+      "losses/dpo": 1.0638338327407837,
+      "losses/sft": 0.1654026359319687,
+      "losses/total": 1.0638338327407837,
+      "ref_logps/chosen": -48.48411560058594,
+      "ref_logps/rejected": -42.86372375488281,
+      "rewards/accuracies": 0.7890625,
+      "rewards/chosen": -0.2121725082397461,
+      "rewards/margins": 0.4128417372703552,
+      "rewards/rejected": -0.6250141859054565,
       "step": 23
     },
     {
       "epoch": 0.33,
+      "grad_norm": 26.152258770479694,
       "learning_rate": 4.2889974018603024e-07,
+      "logps/chosen": -53.90440368652344,
+      "logps/rejected": -50.59031295776367,
+      "loss": 0.5421,
+      "losses/dpo": 0.7262043952941895,
+      "losses/sft": 0.18153545260429382,
+      "losses/total": 0.7262043952941895,
+      "ref_logps/chosen": -51.315208435058594,
+      "ref_logps/rejected": -43.73783874511719,
+      "rewards/accuracies": 0.734375,
+      "rewards/chosen": -0.2589200735092163,
+      "rewards/margins": 0.4263269305229187,
+      "rewards/rejected": -0.6852469444274902,
       "step": 24
     },
     {
       "epoch": 0.34,
+      "grad_norm": 49.33026538547341,
       "learning_rate": 4.2025396469669926e-07,
+      "logps/chosen": -53.82769775390625,
+      "logps/rejected": -50.70613098144531,
+      "loss": 0.5517,
+      "losses/dpo": 0.41891151666641235,
+      "losses/sft": 0.1567077487707138,
+      "losses/total": 0.41891151666641235,
+      "ref_logps/chosen": -50.04922103881836,
+      "ref_logps/rejected": -42.47876739501953,
+      "rewards/accuracies": 0.7109375,
+      "rewards/chosen": -0.37784749269485474,
+      "rewards/margins": 0.4448884427547455,
+      "rewards/rejected": -0.8227359056472778,
       "step": 25
     },
     {
       "epoch": 0.36,
+      "grad_norm": 38.54013817065724,
       "learning_rate": 4.112105531840426e-07,
+      "logps/chosen": -56.83380889892578,
+      "logps/rejected": -55.79877471923828,
+      "loss": 0.5145,
+      "losses/dpo": 0.25203394889831543,
+      "losses/sft": 0.15007992088794708,
+      "losses/total": 0.25203394889831543,
+      "ref_logps/chosen": -51.92417907714844,
+      "ref_logps/rejected": -45.255348205566406,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.49096283316612244,
+      "rewards/margins": 0.5633795261383057,
+      "rewards/rejected": -1.0543423891067505,
       "step": 26
     },
     {
       "epoch": 0.37,
+      "grad_norm": 35.25775541354148,
       "learning_rate": 4.017906269546778e-07,
+      "logps/chosen": -57.45189666748047,
+      "logps/rejected": -53.96529769897461,
+      "loss": 0.5329,
+      "losses/dpo": 0.3053484857082367,
+      "losses/sft": 0.12551482021808624,
+      "losses/total": 0.3053484857082367,
+      "ref_logps/chosen": -52.189697265625,
+      "ref_logps/rejected": -44.003353118896484,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -0.5262198448181152,
+      "rewards/margins": 0.46997466683387756,
+      "rewards/rejected": -0.99619460105896,
       "step": 27
     },
     {
       "epoch": 0.38,
+      "grad_norm": 23.64859158816546,
       "learning_rate": 3.920161866827889e-07,
+      "logps/chosen": -57.529579162597656,
+      "logps/rejected": -56.24253845214844,
+      "loss": 0.4882,
+      "losses/dpo": 0.67308509349823,
+      "losses/sft": 0.12211936712265015,
+      "losses/total": 0.67308509349823,
+      "ref_logps/chosen": -51.290321350097656,
+      "ref_logps/rejected": -43.70161437988281,
       "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.6239261627197266,
+      "rewards/margins": 0.6301661133766174,
+      "rewards/rejected": -1.2540922164916992,
       "step": 28
     },
     {
       "epoch": 0.4,
+      "grad_norm": 34.075060841718205,
       "learning_rate": 3.8191006102653317e-07,
+      "logps/chosen": -54.39567947387695,
+      "logps/rejected": -53.69304656982422,
+      "loss": 0.515,
+      "losses/dpo": 0.3636208176612854,
+      "losses/sft": 0.15627621114253998,
+      "losses/total": 0.3636208176612854,
+      "ref_logps/chosen": -46.61610412597656,
+      "ref_logps/rejected": -40.169898986816406,
+      "rewards/accuracies": 0.7890625,
+      "rewards/chosen": -0.7779572010040283,
+      "rewards/margins": 0.5743571519851685,
+      "rewards/rejected": -1.3523142337799072,
       "step": 29
     },
     {
       "epoch": 0.41,
+      "grad_norm": 39.075544491508126,
       "learning_rate": 3.7149585331065145e-07,
+      "logps/chosen": -55.852046966552734,
+      "logps/rejected": -56.0112419128418,
+      "loss": 0.4987,
+      "losses/dpo": 0.9463083744049072,
+      "losses/sft": 0.1410434991121292,
+      "losses/total": 0.9463083744049072,
+      "ref_logps/chosen": -48.19220733642578,
+      "ref_logps/rejected": -42.009246826171875,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.765984058380127,
+      "rewards/margins": 0.634215772151947,
+      "rewards/rejected": -1.4001998901367188,
       "step": 30
     },
     {
       "epoch": 0.42,
+      "grad_norm": 27.598875905640913,
       "learning_rate": 3.6079788639981036e-07,
+      "logps/chosen": -60.89286804199219,
+      "logps/rejected": -58.91151428222656,
+      "loss": 0.477,
+      "losses/dpo": 0.5266605615615845,
+      "losses/sft": 0.14658664166927338,
+      "losses/total": 0.5266605615615845,
+      "ref_logps/chosen": -51.61863327026367,
+      "ref_logps/rejected": -42.28534698486328,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -0.9274235963821411,
+      "rewards/margins": 0.7351932525634766,
+      "rewards/rejected": -1.6626169681549072,
       "step": 31
     },
     {
       "epoch": 0.44,
+      "grad_norm": 28.756497878941868,
       "learning_rate": 3.498411458914238e-07,
+      "logps/chosen": -60.40979766845703,
+      "logps/rejected": -60.34819793701172,
+      "loss": 0.4847,
+      "losses/dpo": 0.4884541630744934,
+      "losses/sft": 0.19494454562664032,
+      "losses/total": 0.4884541630744934,
+      "ref_logps/chosen": -52.04460906982422,
+      "ref_logps/rejected": -44.97260665893555,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.8365185260772705,
+      "rewards/margins": 0.701040506362915,
+      "rewards/rejected": -1.537559151649475,
       "step": 32
     },
     {
       "epoch": 0.45,
+      "grad_norm": 28.434577214059978,
       "learning_rate": 3.3865122176063385e-07,
+      "logps/chosen": -57.96968460083008,
+      "logps/rejected": -56.83502960205078,
+      "loss": 0.4677,
+      "losses/dpo": 0.5375417470932007,
+      "losses/sft": 0.148137629032135,
+      "losses/total": 0.5375417470932007,
+      "ref_logps/chosen": -47.51142120361328,
+      "ref_logps/rejected": -38.619873046875,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -1.0458261966705322,
+      "rewards/margins": 0.7756892442703247,
+      "rewards/rejected": -1.8215153217315674,
       "step": 33
     },
     {
       "epoch": 0.47,
+      "grad_norm": 29.49134519608509,
       "learning_rate": 3.272542485937368e-07,
+      "logps/chosen": -62.14280700683594,
+      "logps/rejected": -61.54853820800781,
+      "loss": 0.4961,
+      "losses/dpo": 0.7278311848640442,
+      "losses/sft": 0.1993408501148224,
+      "losses/total": 0.7278311848640442,
+      "ref_logps/chosen": -51.82103729248047,
+      "ref_logps/rejected": -44.025291442871094,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0321770906448364,
+      "rewards/margins": 0.7201482653617859,
+      "rewards/rejected": -1.7523252964019775,
       "step": 34
     },
     {
       "epoch": 0.48,
+      "grad_norm": 26.468466564434074,
       "learning_rate": 3.1567684454964674e-07,
+      "logps/chosen": -56.682411193847656,
+      "logps/rejected": -58.0302734375,
+      "loss": 0.4396,
+      "losses/dpo": 0.5649744868278503,
+      "losses/sft": 0.129312202334404,
+      "losses/total": 0.5649744868278503,
+      "ref_logps/chosen": -47.770896911621094,
+      "ref_logps/rejected": -40.46588897705078,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -0.8911517858505249,
+      "rewards/margins": 0.8652870059013367,
+      "rewards/rejected": -1.7564387321472168,
       "step": 35
     },
     {
       "epoch": 0.49,
+      "grad_norm": 25.595938355510107,
       "learning_rate": 3.0394604919195157e-07,
+      "logps/chosen": -61.79121398925781,
+      "logps/rejected": -62.89993667602539,
+      "loss": 0.4745,
+      "losses/dpo": 0.2738940417766571,
+      "losses/sft": 0.15838046371936798,
+      "losses/total": 0.2738940417766571,
+      "ref_logps/chosen": -49.21980285644531,
+      "ref_logps/rejected": -42.15373992919922,
+      "rewards/accuracies": 0.7578125,
+      "rewards/chosen": -1.257140874862671,
+      "rewards/margins": 0.8174787759780884,
+      "rewards/rejected": -2.074619770050049,
       "step": 36
     },
     {
       "epoch": 0.51,
+      "grad_norm": 24.43093018755541,
       "learning_rate": 2.920892603367596e-07,
+      "logps/chosen": -60.27898406982422,
+      "logps/rejected": -61.00114822387695,
+      "loss": 0.4791,
+      "losses/dpo": 0.5097879767417908,
+      "losses/sft": 0.17959001660346985,
+      "losses/total": 0.5097879767417908,
+      "ref_logps/chosen": -49.49871826171875,
+      "ref_logps/rejected": -42.78453063964844,
+      "rewards/accuracies": 0.7890625,
+      "rewards/chosen": -1.078026533126831,
+      "rewards/margins": 0.7436352372169495,
+      "rewards/rejected": -1.8216617107391357,
       "step": 37
     },
     {
       "epoch": 0.52,
+      "grad_norm": 27.08759050745191,
       "learning_rate": 2.801341700638307e-07,
+      "logps/chosen": -62.44047164916992,
+      "logps/rejected": -62.224884033203125,
+      "loss": 0.4767,
+      "losses/dpo": 0.37803658843040466,
+      "losses/sft": 0.18652431666851044,
+      "losses/total": 0.37803658843040466,
+      "ref_logps/chosen": -50.557559967041016,
+      "ref_logps/rejected": -41.98173522949219,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.1882915496826172,
+      "rewards/margins": 0.8360234498977661,
+      "rewards/rejected": -2.0243148803710938,
       "step": 38
     },
     {
       "epoch": 0.53,
+      "grad_norm": 33.43704122805882,
       "learning_rate": 2.681087000404406e-07,
+      "logps/chosen": -65.03423309326172,
+      "logps/rejected": -65.04768371582031,
+      "loss": 0.5084,
+      "losses/dpo": 0.7027170658111572,
+      "losses/sft": 0.12946006655693054,
+      "losses/total": 0.7027170658111572,
+      "ref_logps/chosen": -51.817020416259766,
+      "ref_logps/rejected": -44.10376739501953,
+      "rewards/accuracies": 0.71875,
+      "rewards/chosen": -1.3217215538024902,
+      "rewards/margins": 0.7726694345474243,
+      "rewards/rejected": -2.094391107559204,
       "step": 39
     },
     {
       "epoch": 0.55,
+      "grad_norm": 129.45570096870608,
       "learning_rate": 2.5604093630903305e-07,
+      "logps/chosen": -59.94195556640625,
+      "logps/rejected": -63.19525909423828,
+      "loss": 0.4527,
+      "losses/dpo": 0.7064068913459778,
+      "losses/sft": 0.13724827766418457,
+      "losses/total": 0.7064068913459778,
+      "ref_logps/chosen": -47.65526580810547,
+      "ref_logps/rejected": -42.33349609375,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -1.2286689281463623,
+      "rewards/margins": 0.8575077056884766,
+      "rewards/rejected": -2.086176872253418,
       "step": 40
     },
     {
       "epoch": 0.56,
+      "grad_norm": 24.012368893482737,
       "learning_rate": 2.43959063690967e-07,
+      "logps/chosen": -61.86077880859375,
+      "logps/rejected": -66.92259979248047,
+      "loss": 0.4553,
+      "losses/dpo": 0.3154614567756653,
+      "losses/sft": 0.16294528543949127,
+      "losses/total": 0.3154614567756653,
+      "ref_logps/chosen": -48.4053955078125,
+      "ref_logps/rejected": -44.16739273071289,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -1.3455381393432617,
+      "rewards/margins": 0.9299829006195068,
+      "rewards/rejected": -2.2755210399627686,
       "step": 41
     },
     {
       "epoch": 0.58,
+      "grad_norm": 102.16273879292123,
       "learning_rate": 2.3189129995955942e-07,
+      "logps/chosen": -64.28011322021484,
+      "logps/rejected": -64.86600494384766,
+      "loss": 0.4642,
+      "losses/dpo": 0.4425658583641052,
+      "losses/sft": 0.11157938092947006,
+      "losses/total": 0.4425658583641052,
+      "ref_logps/chosen": -53.148860931396484,
+      "ref_logps/rejected": -45.69209289550781,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.113125205039978,
+      "rewards/margins": 0.8042662143707275,
+      "rewards/rejected": -1.9173914194107056,
       "step": 42
     },
     {
       "epoch": 0.59,
+      "grad_norm": 27.45890404880792,
       "learning_rate": 2.1986582993616925e-07,
+      "logps/chosen": -64.73760223388672,
+      "logps/rejected": -63.79928207397461,
+      "loss": 0.4607,
+      "losses/dpo": 0.08850211650133133,
+      "losses/sft": 0.1770356148481369,
+      "losses/total": 0.08850211650133133,
+      "ref_logps/chosen": -52.7093391418457,
+      "ref_logps/rejected": -42.18277359008789,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.2028264999389648,
+      "rewards/margins": 0.9588243961334229,
+      "rewards/rejected": -2.1616508960723877,
       "step": 43
     },
     {
       "epoch": 0.6,
+      "grad_norm": 35.977504794321945,
       "learning_rate": 2.0791073966324034e-07,
+      "logps/chosen": -65.26310729980469,
+      "logps/rejected": -66.70973205566406,
+      "loss": 0.4531,
+      "losses/dpo": 0.7271055579185486,
+      "losses/sft": 0.1396849900484085,
+      "losses/total": 0.7271055579185486,
+      "ref_logps/chosen": -53.6609001159668,
+      "ref_logps/rejected": -46.01152801513672,
+      "rewards/accuracies": 0.8515625,
+      "rewards/chosen": -1.1602208614349365,
+      "rewards/margins": 0.909599781036377,
+      "rewards/rejected": -2.0698208808898926,
       "step": 44
     },
     {
       "epoch": 0.62,
+      "grad_norm": 30.8655762680209,
       "learning_rate": 1.960539508080485e-07,
+      "logps/chosen": -62.69697952270508,
+      "logps/rejected": -64.87743377685547,
+      "loss": 0.4482,
+      "losses/dpo": 0.7160241603851318,
+      "losses/sft": 0.16245654225349426,
+      "losses/total": 0.7160241603851318,
+      "ref_logps/chosen": -49.983802795410156,
+      "ref_logps/rejected": -43.17237091064453,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -1.2713178396224976,
+      "rewards/margins": 0.8991883993148804,
+      "rewards/rejected": -2.170506238937378,
       "step": 45
     },
     {
       "epoch": 0.63,
+      "grad_norm": 42.203067350847334,
       "learning_rate": 1.8432315545035327e-07,
+      "logps/chosen": -65.14309692382812,
+      "logps/rejected": -64.79584503173828,
+      "loss": 0.4638,
+      "losses/dpo": 0.647499144077301,
+      "losses/sft": 0.17309847474098206,
+      "losses/total": 0.647499144077301,
+      "ref_logps/chosen": -51.99322509765625,
+      "ref_logps/rejected": -42.78443145751953,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": -1.3149867057800293,
+      "rewards/margins": 0.8861545324325562,
+      "rewards/rejected": -2.201141357421875,
       "step": 46
     },
     {
       "epoch": 0.64,
+      "grad_norm": 26.70333995315738,
       "learning_rate": 1.7274575140626315e-07,
+      "logps/chosen": -64.62788391113281,
+      "logps/rejected": -66.00929260253906,
+      "loss": 0.3755,
+      "losses/dpo": 0.7572497129440308,
+      "losses/sft": 0.16420619189739227,
+      "losses/total": 0.7572497129440308,
+      "ref_logps/chosen": -53.670265197753906,
+      "ref_logps/rejected": -43.973365783691406,
+      "rewards/accuracies": 0.8671875,
+      "rewards/chosen": -1.0957624912261963,
+      "rewards/margins": 1.1078301668167114,
+      "rewards/rejected": -2.203592538833618,
       "step": 47
     },
     {
       "epoch": 0.66,
+      "grad_norm": 30.007336064883145,
       "learning_rate": 1.6134877823936607e-07,
+      "logps/chosen": -60.07398223876953,
+      "logps/rejected": -63.938331604003906,
+      "loss": 0.4222,
+      "losses/dpo": 0.4377414286136627,
+      "losses/sft": 0.11289513111114502,
+      "losses/total": 0.4377414286136627,
+      "ref_logps/chosen": -48.226722717285156,
+      "ref_logps/rejected": -42.14054870605469,
+      "rewards/accuracies": 0.765625,
+      "rewards/chosen": -1.1847256422042847,
+      "rewards/margins": 0.995052695274353,
+      "rewards/rejected": -2.1797783374786377,
       "step": 48
     },
     {
       "epoch": 0.67,
+      "grad_norm": 33.18269229637362,
       "learning_rate": 1.5015885410857614e-07,
+      "logps/chosen": -63.292476654052734,
+      "logps/rejected": -66.98123168945312,
+      "loss": 0.4246,
+      "losses/dpo": 0.3581680655479431,
+      "losses/sft": 0.17332157492637634,
+      "losses/total": 0.3581680655479431,
+      "ref_logps/chosen": -50.916664123535156,
+      "ref_logps/rejected": -45.03084182739258,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.2375812530517578,
+      "rewards/margins": 0.9574571847915649,
+      "rewards/rejected": -2.195038318634033,
       "step": 49
     },
     {
       "epoch": 0.68,
+      "grad_norm": 32.535671402481796,
       "learning_rate": 1.392021136001897e-07,
+      "logps/chosen": -61.653507232666016,
+      "logps/rejected": -66.69647979736328,
+      "loss": 0.3784,
+      "losses/dpo": 0.14524562656879425,
+      "losses/sft": 0.1722523272037506,
+      "losses/total": 0.14524562656879425,
+      "ref_logps/chosen": -51.076236724853516,
+      "ref_logps/rejected": -44.246944427490234,
+      "rewards/accuracies": 0.8046875,
+      "rewards/chosen": -1.0577270984649658,
+      "rewards/margins": 1.1872267723083496,
+      "rewards/rejected": -2.2449538707733154,
       "step": 50
     },
     {
       "epoch": 0.7,
+      "grad_norm": 25.494002931399418,
       "learning_rate": 1.2850414668934847e-07,
+      "logps/chosen": -63.76778030395508,
+      "logps/rejected": -66.36669921875,
+      "loss": 0.4239,
+      "losses/dpo": 0.5600922107696533,
+      "losses/sft": 0.13496388494968414,
+      "losses/total": 0.5600922107696533,
+      "ref_logps/chosen": -49.28026580810547,
+      "ref_logps/rejected": -41.501556396484375,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.4487512111663818,
+      "rewards/margins": 1.0377633571624756,
+      "rewards/rejected": -2.4865145683288574,
       "step": 51
     },
     {
       "epoch": 0.71,
+      "grad_norm": 24.257143077705184,
       "learning_rate": 1.1808993897346678e-07,
+      "logps/chosen": -60.98112487792969,
+      "logps/rejected": -66.6905517578125,
+      "loss": 0.4463,
+      "losses/dpo": 0.6072797775268555,
+      "losses/sft": 0.14662015438079834,
+      "losses/total": 0.6072797775268555,
+      "ref_logps/chosen": -48.362701416015625,
+      "ref_logps/rejected": -44.13787841796875,
+      "rewards/accuracies": 0.7734375,
+      "rewards/chosen": -1.2618422508239746,
+      "rewards/margins": 0.9934254288673401,
+      "rewards/rejected": -2.25526762008667,
       "step": 52
     },
     {
       "epoch": 0.73,
+      "grad_norm": 28.99400991059714,
       "learning_rate": 1.0798381331721107e-07,
+      "logps/chosen": -61.79584884643555,
+      "logps/rejected": -64.41800689697266,
+      "loss": 0.4073,
+      "losses/dpo": 0.17208106815814972,
+      "losses/sft": 0.14093177020549774,
+      "losses/total": 0.17208106815814972,
+      "ref_logps/chosen": -49.47767639160156,
+      "ref_logps/rejected": -41.640419006347656,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": -1.2318172454833984,
+      "rewards/margins": 1.0459411144256592,
+      "rewards/rejected": -2.2777583599090576,
       "step": 53
     },
     {
       "epoch": 0.74,
+      "grad_norm": 32.15451904929163,
       "learning_rate": 9.82093730453222e-08,
+      "logps/chosen": -62.59501647949219,
+      "logps/rejected": -63.971126556396484,
+      "loss": 0.5058,
+      "losses/dpo": 0.3638117015361786,
+      "losses/sft": 0.14573359489440918,
+      "losses/total": 0.3638117015361786,
+      "ref_logps/chosen": -51.01821517944336,
+      "ref_logps/rejected": -43.79859161376953,
+      "rewards/accuracies": 0.7421875,
+      "rewards/chosen": -1.157679796218872,
+      "rewards/margins": 0.8595736026763916,
+      "rewards/rejected": -2.0172533988952637,
       "step": 54
     },
     {
       "epoch": 0.75,
+      "grad_norm": 29.71547196346147,
       "learning_rate": 8.87894468159574e-08,
+      "logps/chosen": -63.908302307128906,
+      "logps/rejected": -65.4727554321289,
+      "loss": 0.4043,
+      "losses/dpo": 1.4689037799835205,
+      "losses/sft": 0.19870857894420624,
+      "losses/total": 1.4689037799835205,
+      "ref_logps/chosen": -49.52888870239258,
+      "ref_logps/rejected": -39.608917236328125,
+      "rewards/accuracies": 0.8203125,
+      "rewards/chosen": -1.437941312789917,
+      "rewards/margins": 1.148442029953003,
+      "rewards/rejected": -2.586383581161499,
       "step": 55
     },
     {
       "epoch": 0.77,
+      "grad_norm": 40.070212554436814,
       "learning_rate": 7.974603530330067e-08,
+      "logps/chosen": -63.663780212402344,
+      "logps/rejected": -65.04582977294922,
+      "loss": 0.4551,
+      "losses/dpo": 0.7427124977111816,
+      "losses/sft": 0.1415950208902359,
+      "losses/total": 0.7427124977111816,
+      "ref_logps/chosen": -52.447853088378906,
+      "ref_logps/rejected": -44.403289794921875,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.1215929985046387,
+      "rewards/margins": 0.9426611661911011,
+      "rewards/rejected": -2.0642542839050293,
       "step": 56
     },
     {
       "epoch": 0.78,
+      "grad_norm": 50.773025060467745,
       "learning_rate": 7.110025981396975e-08,
+      "logps/chosen": -64.57611083984375,
+      "logps/rejected": -67.85655212402344,
+      "loss": 0.4677,
+      "losses/dpo": 0.7480742335319519,
+      "losses/sft": 0.1996467560529709,
+      "losses/total": 0.7480742335319519,
+      "ref_logps/chosen": -49.66741943359375,
+      "ref_logps/rejected": -43.6092414855957,
+      "rewards/accuracies": 0.796875,
+      "rewards/chosen": -1.4908695220947266,
+      "rewards/margins": 0.9338614344596863,
+      "rewards/rejected": -2.4247307777404785,
       "step": 57
     },
     {
       "epoch": 0.79,
+      "grad_norm": 151.98374859438076,
       "learning_rate": 6.28723129572247e-08,
+      "logps/chosen": -63.19204330444336,
+      "logps/rejected": -67.11865234375,
+      "loss": 0.4125,
+      "losses/dpo": 0.191142737865448,
+      "losses/sft": 0.1258397251367569,
+      "losses/total": 0.191142737865448,
+      "ref_logps/chosen": -49.3205680847168,
+      "ref_logps/rejected": -42.308128356933594,
+      "rewards/accuracies": 0.859375,
+      "rewards/chosen": -1.387147307395935,
+      "rewards/margins": 1.0939054489135742,
+      "rewards/rejected": -2.481052875518799,
       "step": 58
     },
     {
       "epoch": 0.81,
+      "grad_norm": 68.1040384525775,
       "learning_rate": 5.508141148419443e-08,
+      "logps/chosen": -66.73199462890625,
+      "logps/rejected": -66.16500854492188,
+      "loss": 0.416,
+      "losses/dpo": 0.4806699752807617,
+      "losses/sft": 0.17691649496555328,
+      "losses/total": 0.4806699752807617,
+      "ref_logps/chosen": -52.95691680908203,
+      "ref_logps/rejected": -42.309608459472656,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": -1.3775070905685425,
+      "rewards/margins": 1.0080331563949585,
+      "rewards/rejected": -2.38554048538208,
       "step": 59
     },
     {
       "epoch": 0.82,
+      "grad_norm": 40.930870088616274,
       "learning_rate": 4.774575140626316e-08,
+      "logps/chosen": -65.13594055175781,
+      "logps/rejected": -67.62340545654297,
+      "loss": 0.4084,
+      "losses/dpo": 0.3780416250228882,
+      "losses/sft": 0.070173479616642,
+      "losses/total": 0.3780416250228882,
+      "ref_logps/chosen": -50.85914611816406,
+      "ref_logps/rejected": -41.8093147277832,
+      "rewards/accuracies": 0.828125,
+      "rewards/chosen": -1.4276790618896484,
+      "rewards/margins": 1.153730034828186,
+      "rewards/rejected": -2.581409215927124,
       "step": 60
     },
     {
       "epoch": 0.84,
+      "grad_norm": 30.260562657822298,
       "learning_rate": 4.0882465497443313e-08,
+      "logps/chosen": -63.07252883911133,
+      "logps/rejected": -69.03398132324219,
+      "loss": 0.4369,
+      "losses/dpo": 0.36678266525268555,
+      "losses/sft": 0.12201398611068726,
+      "losses/total": 0.36678266525268555,
+      "ref_logps/chosen": -49.61937713623047,
+      "ref_logps/rejected": -44.632652282714844,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.3453152179718018,
+      "rewards/margins": 1.0948173999786377,
+      "rewards/rejected": -2.4401326179504395,
       "step": 61
     },
     {
       "epoch": 0.85,
+      "grad_norm": 24.402238672879346,
       "learning_rate": 3.450758327998768e-08,
+      "logps/chosen": -63.65578842163086,
+      "logps/rejected": -67.62722778320312,
+      "loss": 0.3813,
+      "losses/dpo": 0.7685420513153076,
+      "losses/sft": 0.19448544085025787,
+      "losses/total": 0.7685420513153076,
+      "ref_logps/chosen": -51.653221130371094,
+      "ref_logps/rejected": -43.50916290283203,
+      "rewards/accuracies": 0.8359375,
+      "rewards/chosen": -1.2002568244934082,
+      "rewards/margins": 1.2115496397018433,
+      "rewards/rejected": -2.411806583404541,
       "step": 62
     },
     {
       "epoch": 0.86,
+      "grad_norm": 24.77840549005978,
       "learning_rate": 2.863599358669755e-08,
+      "logps/chosen": -65.08932495117188,
+      "logps/rejected": -66.61253356933594,
+      "loss": 0.4291,
+      "losses/dpo": 1.248164176940918,
+      "losses/sft": 0.15433447062969208,
+      "losses/total": 1.248164176940918,
+      "ref_logps/chosen": -52.82990646362305,
+      "ref_logps/rejected": -44.81475830078125,
+      "rewards/accuracies": 0.8046875,
+      "rewards/chosen": -1.2259418964385986,
+      "rewards/margins": 0.9538350105285645,
+      "rewards/rejected": -2.179776906967163,
       "step": 63
     },
     {
       "epoch": 0.88,
+      "grad_norm": 37.580661698465605,
       "learning_rate": 2.3281409787363648e-08,
+      "logps/chosen": -61.57237243652344,
+      "logps/rejected": -65.20365142822266,
+      "loss": 0.4063,
+      "losses/dpo": 0.09678905457258224,
+      "losses/sft": 0.15513929724693298,
+      "losses/total": 0.09678905457258224,
+      "ref_logps/chosen": -48.36906814575195,
+      "ref_logps/rejected": -41.755638122558594,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.3203303813934326,
+      "rewards/margins": 1.0244702100753784,
+      "rewards/rejected": -2.3448004722595215,
       "step": 64
     },
     {
       "epoch": 0.89,
+      "grad_norm": 52.86928073665909,
       "learning_rate": 1.845633776055591e-08,
+      "logps/chosen": -63.794559478759766,
+      "logps/rejected": -68.59591674804688,
+      "loss": 0.4236,
+      "losses/dpo": 0.5401971936225891,
+      "losses/sft": 0.1492851972579956,
+      "losses/total": 0.5401971936225891,
+      "ref_logps/chosen": -51.490814208984375,
+      "ref_logps/rejected": -46.14380645751953,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.2303749322891235,
+      "rewards/margins": 1.0148357152938843,
+      "rewards/rejected": -2.245210647583008,
       "step": 65
     },
     {
       "epoch": 0.9,
+      "grad_norm": 26.186736903994795,
       "learning_rate": 1.4172046685564209e-08,
+      "logps/chosen": -63.65757751464844,
+      "logps/rejected": -66.78644561767578,
+      "loss": 0.4453,
+      "losses/dpo": 0.3751629889011383,
+      "losses/sft": 0.20083920657634735,
+      "losses/total": 0.3751629889011383,
+      "ref_logps/chosen": -50.14271545410156,
+      "ref_logps/rejected": -43.08906555175781,
+      "rewards/accuracies": 0.78125,
+      "rewards/chosen": -1.3514864444732666,
+      "rewards/margins": 1.0182515382766724,
+      "rewards/rejected": -2.3697378635406494,
       "step": 66
     },
     {
       "epoch": 0.92,
+      "grad_norm": 32.512692665801914,
       "learning_rate": 1.0438542722708444e-08,
+      "logps/chosen": -61.425235748291016,
+      "logps/rejected": -62.99015426635742,
+      "loss": 0.4034,
+      "losses/dpo": 0.4745466709136963,
+      "losses/sft": 0.15217916667461395,
+      "losses/total": 0.4745466709136963,
+      "ref_logps/chosen": -49.22258758544922,
+      "ref_logps/rejected": -39.8096923828125,
+      "rewards/accuracies": 0.84375,
+      "rewards/chosen": -1.2202647924423218,
+      "rewards/margins": 1.0977811813354492,
+      "rewards/rejected": -2.3180460929870605,
       "step": 67
     },
     {
       "epoch": 0.93,
+      "grad_norm": 28.142561520937964,
       "learning_rate": 7.2645456434869965e-09,
+      "logps/chosen": -60.124473571777344,
+      "logps/rejected": -64.52591705322266,
+      "loss": 0.4073,
+      "losses/dpo": 0.5824078917503357,
+      "losses/sft": 0.15901198983192444,
+      "losses/total": 0.5824078917503357,
+      "ref_logps/chosen": -49.08730697631836,
+      "ref_logps/rejected": -42.66169357299805,
+      "rewards/accuracies": 0.8203125,
+      "rewards/chosen": -1.1037168502807617,
+      "rewards/margins": 1.0827052593231201,
+      "rewards/rejected": -2.1864218711853027,
       "step": 68
     },
     {
       "epoch": 0.95,
+      "grad_norm": 26.50196447879399,
       "learning_rate": 4.657468465146641e-09,
+      "logps/chosen": -63.6911735534668,
+      "logps/rejected": -68.59868621826172,
+      "loss": 0.3973,
+      "losses/dpo": 0.40227654576301575,
+      "losses/sft": 0.18853811919689178,
+      "losses/total": 0.40227654576301575,
+      "ref_logps/chosen": -51.581443786621094,
+      "ref_logps/rejected": -44.77821350097656,
+      "rewards/accuracies": 0.8515625,
+      "rewards/chosen": -1.210972785949707,
+      "rewards/margins": 1.1710745096206665,
+      "rewards/rejected": -2.382047176361084,
       "step": 69
     },
     {
       "epoch": 0.96,
+      "grad_norm": 56.71695513519511,
       "learning_rate": 2.6234001372372193e-09,
+      "logps/chosen": -63.47015380859375,
+      "logps/rejected": -65.77841186523438,
+      "loss": 0.4462,
+      "losses/dpo": 0.6931471824645996,
+      "losses/sft": 0.16308167576789856,
+      "losses/total": 0.6931471824645996,
+      "ref_logps/chosen": -50.47125244140625,
+      "ref_logps/rejected": -43.315406799316406,
+      "rewards/accuracies": 0.8203125,
+      "rewards/chosen": -1.2998902797698975,
+      "rewards/margins": 0.9464105367660522,
+      "rewards/rejected": -2.24630069732666,
       "step": 70
     },
     {
       "epoch": 0.97,
+      "grad_norm": 23.674451477206517,
       "learning_rate": 1.167091320587843e-09,
+      "logps/chosen": -62.78862762451172,
+      "logps/rejected": -67.10327911376953,
+      "loss": 0.4313,
+      "losses/dpo": 0.12619969248771667,
+      "losses/sft": 0.16695602238178253,
+      "losses/total": 0.12619969248771667,
+      "ref_logps/chosen": -50.83470153808594,
+      "ref_logps/rejected": -45.14189147949219,
+      "rewards/accuracies": 0.8046875,
+      "rewards/chosen": -1.1953924894332886,
+      "rewards/margins": 1.000746250152588,
+      "rewards/rejected": -2.196138858795166,
       "step": 71
     },
     {
       "epoch": 0.99,
+      "grad_norm": 26.52528545158649,
       "learning_rate": 2.9194329191833953e-10,
+      "logps/chosen": -63.891353607177734,
+      "logps/rejected": -66.84733581542969,
+      "loss": 0.4241,
+      "losses/dpo": 0.2748945951461792,
+      "losses/sft": 0.1392793506383896,
+      "losses/total": 0.2748945951461792,
+      "ref_logps/chosen": -51.043392181396484,
+      "ref_logps/rejected": -43.61123275756836,
+      "rewards/accuracies": 0.7734375,
+      "rewards/chosen": -1.2847963571548462,
+      "rewards/margins": 1.0388145446777344,
+      "rewards/rejected": -2.323610782623291,
       "step": 72
     },
     {
       "epoch": 1.0,
+      "grad_norm": 32.933679564175364,
       "learning_rate": 0.0,
+      "logps/chosen": -64.90662384033203,
+      "logps/rejected": -65.81568145751953,
+      "loss": 0.3989,
+      "losses/dpo": 0.6386691927909851,
+      "losses/sft": 0.17253142595291138,
+      "losses/total": 0.6386691927909851,
+      "ref_logps/chosen": -53.89427185058594,
+      "ref_logps/rejected": -43.687034606933594,
+      "rewards/accuracies": 0.8515625,
+      "rewards/chosen": -1.1012351512908936,
+      "rewards/margins": 1.1116297245025635,
+      "rewards/rejected": -2.212864875793457,
       "step": 73
     },
     {
       "epoch": 1.0,
       "step": 73,
       "total_flos": 0.0,
+      "train_loss": 0.5157321454727486,
+      "train_runtime": 1200.6075,
+      "train_samples_per_second": 7.848,
       "train_steps_per_second": 0.061
     }
   ],
   "max_steps": 73,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
+  "save_steps": 20000,
   "total_flos": 0.0,
   "train_batch_size": 1,
   "trial_name": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2be64989f4fc627b4d3149eec1d20f187177a9a5a04e580e903943c9a25a406
-size 8056

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b583f6e9c5632b56ce3bbd7c1ce1021b5fd031b803ec813530cd0ad4a3507e0
+size 8184