German-RAG-LLAMA-3.1-8B-ORPO-HESSIAN-AI / trainer_state.json

Upload 13 files

10682b3 verified 2 months ago

27 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 15.886524822695035,
	"eval_steps": 80,
	"global_step": 840,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.6052009456264775,
	"grad_norm": 9.684629440307617,
	"learning_rate": 1.9047619047619045e-07,
	"log_odds_chosen": 0.08431098610162735,
	"log_odds_ratio": -0.7315660715103149,
	"logits/chosen": -2.4399943351745605,
	"logits/rejected": -2.418248414993286,
	"logps/chosen": -1.316224455833435,
	"logps/rejected": -1.3803966045379639,
	"loss": 1.6469,
	"nll_loss": 1.5446076393127441,
	"rewards/accuracies": 0.54296875,
	"rewards/chosen": -0.1974336802959442,
	"rewards/margins": 0.009625822305679321,
	"rewards/rejected": -0.20705950260162354,
	"step": 32
	},
	{
	"epoch": 1.210401891252955,
	"grad_norm": 6.682727813720703,
	"learning_rate": 3.809523809523809e-07,
	"log_odds_chosen": 0.1358582228422165,
	"log_odds_ratio": -0.6844438314437866,
	"logits/chosen": -2.4866111278533936,
	"logits/rejected": -2.473512649536133,
	"logps/chosen": -1.2416539192199707,
	"logps/rejected": -1.338365912437439,
	"loss": 1.5513,
	"nll_loss": 1.43682861328125,
	"rewards/accuracies": 0.55859375,
	"rewards/chosen": -0.1862480789422989,
	"rewards/margins": 0.01450679823756218,
	"rewards/rejected": -0.20075488090515137,
	"step": 64
	},
	{
	"epoch": 1.5130023640661938,
	"eval_log_odds_chosen": 1.1365413665771484,
	"eval_log_odds_ratio": -0.2909667193889618,
	"eval_logits/chosen": -2.8555617332458496,
	"eval_logits/rejected": -2.7511401176452637,
	"eval_logps/chosen": -1.1086950302124023,
	"eval_logps/rejected": -1.990875244140625,
	"eval_loss": 1.1764631271362305,
	"eval_nll_loss": 1.1883823871612549,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.16630426049232483,
	"eval_rewards/margins": 0.13232707977294922,
	"eval_rewards/rejected": -0.29863131046295166,
	"eval_runtime": 0.7889,
	"eval_samples_per_second": 173.657,
	"eval_steps_per_second": 6.338,
	"step": 80
	},
	{
	"epoch": 1.8156028368794326,
	"grad_norm": 5.326328754425049,
	"learning_rate": 4.996892303047305e-07,
	"log_odds_chosen": 0.18785640597343445,
	"log_odds_ratio": -0.6766043901443481,
	"logits/chosen": -2.4521989822387695,
	"logits/rejected": -2.457139492034912,
	"logps/chosen": -1.1742055416107178,
	"logps/rejected": -1.3268922567367554,
	"loss": 1.4307,
	"nll_loss": 1.3236442804336548,
	"rewards/accuracies": 0.5390625,
	"rewards/chosen": -0.17613083124160767,
	"rewards/margins": 0.022903023287653923,
	"rewards/rejected": -0.19903387129306793,
	"step": 96
	},
	{
	"epoch": 2.42080378250591,
	"grad_norm": 6.345442295074463,
	"learning_rate": 4.958326378681848e-07,
	"log_odds_chosen": 0.20125526189804077,
	"log_odds_ratio": -0.6606975793838501,
	"logits/chosen": -2.4338855743408203,
	"logits/rejected": -2.4032998085021973,
	"logps/chosen": -1.2052891254425049,
	"logps/rejected": -1.3293428421020508,
	"loss": 1.3822,
	"nll_loss": 1.3110582828521729,
	"rewards/accuracies": 0.609375,
	"rewards/chosen": -0.18079334497451782,
	"rewards/margins": 0.018608052283525467,
	"rewards/rejected": -0.19940140843391418,
	"step": 128
	},
	{
	"epoch": 3.0260047281323876,
	"grad_norm": 6.9922590255737305,
	"learning_rate": 4.876353872369572e-07,
	"log_odds_chosen": 0.2849215567111969,
	"log_odds_ratio": -0.6226438283920288,
	"logits/chosen": -2.28694748878479,
	"logits/rejected": -2.2813074588775635,
	"logps/chosen": -1.177689552307129,
	"logps/rejected": -1.3626967668533325,
	"loss": 1.3457,
	"nll_loss": 1.2851402759552002,
	"rewards/accuracies": 0.68359375,
	"rewards/chosen": -0.1766534298658371,
	"rewards/margins": 0.027751106768846512,
	"rewards/rejected": -0.20440451800823212,
	"step": 160
	},
	{
	"epoch": 3.0260047281323876,
	"eval_log_odds_chosen": 1.289251685142517,
	"eval_log_odds_ratio": -0.2533319592475891,
	"eval_logits/chosen": -2.6994073390960693,
	"eval_logits/rejected": -2.5944201946258545,
	"eval_logps/chosen": -1.1015231609344482,
	"eval_logps/rejected": -2.1139886379241943,
	"eval_loss": 1.1738542318344116,
	"eval_nll_loss": 1.1927688121795654,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.1652284860610962,
	"eval_rewards/margins": 0.15186984837055206,
	"eval_rewards/rejected": -0.31709831953048706,
	"eval_runtime": 0.7972,
	"eval_samples_per_second": 171.841,
	"eval_steps_per_second": 6.272,
	"step": 160
	},
	{
	"epoch": 3.631205673758865,
	"grad_norm": 6.0752034187316895,
	"learning_rate": 4.752422169756047e-07,
	"log_odds_chosen": 0.29861366748809814,
	"log_odds_ratio": -0.6187925338745117,
	"logits/chosen": -2.278367280960083,
	"logits/rejected": -2.197380781173706,
	"logps/chosen": -1.1402652263641357,
	"logps/rejected": -1.323896884918213,
	"loss": 1.3117,
	"nll_loss": 1.1778795719146729,
	"rewards/accuracies": 0.69140625,
	"rewards/chosen": -0.17103978991508484,
	"rewards/margins": 0.0275447778403759,
	"rewards/rejected": -0.19858455657958984,
	"step": 192
	},
	{
	"epoch": 4.236406619385343,
	"grad_norm": 6.758876800537109,
	"learning_rate": 4.588719528532341e-07,
	"log_odds_chosen": 0.32968199253082275,
	"log_odds_ratio": -0.6064258813858032,
	"logits/chosen": -2.2086422443389893,
	"logits/rejected": -2.213918447494507,
	"logps/chosen": -1.2367851734161377,
	"logps/rejected": -1.4456892013549805,
	"loss": 1.2914,
	"nll_loss": 1.220529317855835,
	"rewards/accuracies": 0.703125,
	"rewards/chosen": -0.1855177879333496,
	"rewards/margins": 0.03133557736873627,
	"rewards/rejected": -0.21685336530208588,
	"step": 224
	},
	{
	"epoch": 4.539007092198582,
	"eval_log_odds_chosen": 1.4739799499511719,
	"eval_log_odds_ratio": -0.21903792023658752,
	"eval_logits/chosen": -2.6473140716552734,
	"eval_logits/rejected": -2.5277247428894043,
	"eval_logps/chosen": -1.2001134157180786,
	"eval_logps/rejected": -2.410470485687256,
	"eval_loss": 1.1219241619110107,
	"eval_nll_loss": 1.137636423110962,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18001702427864075,
	"eval_rewards/margins": 0.18155357241630554,
	"eval_rewards/rejected": -0.3615706264972687,
	"eval_runtime": 0.7853,
	"eval_samples_per_second": 174.46,
	"eval_steps_per_second": 6.367,
	"step": 240
	},
	{
	"epoch": 4.84160756501182,
	"grad_norm": 6.2288618087768555,
	"learning_rate": 4.3881364404463375e-07,
	"log_odds_chosen": 0.46286657452583313,
	"log_odds_ratio": -0.5630860328674316,
	"logits/chosen": -2.216555595397949,
	"logits/rejected": -2.1122565269470215,
	"logps/chosen": -1.1853437423706055,
	"logps/rejected": -1.4803636074066162,
	"loss": 1.2727,
	"nll_loss": 1.1509523391723633,
	"rewards/accuracies": 0.77734375,
	"rewards/chosen": -0.17780157923698425,
	"rewards/margins": 0.04425298422574997,
	"rewards/rejected": -0.222054585814476,
	"step": 256
	},
	{
	"epoch": 5.446808510638298,
	"grad_norm": 8.837624549865723,
	"learning_rate": 4.154214593992149e-07,
	"log_odds_chosen": 0.571550726890564,
	"log_odds_ratio": -0.5269472002983093,
	"logits/chosen": -2.189985990524292,
	"logits/rejected": -2.085646152496338,
	"logps/chosen": -1.2091223001480103,
	"logps/rejected": -1.5827255249023438,
	"loss": 1.2582,
	"nll_loss": 1.1602920293807983,
	"rewards/accuracies": 0.78515625,
	"rewards/chosen": -0.18136833608150482,
	"rewards/margins": 0.05604049190878868,
	"rewards/rejected": -0.237408846616745,
	"step": 288
	},
	{
	"epoch": 6.052009456264775,
	"grad_norm": 10.696549415588379,
	"learning_rate": 3.891084338941603e-07,
	"log_odds_chosen": 0.5793906450271606,
	"log_odds_ratio": -0.5278146862983704,
	"logits/chosen": -2.0601658821105957,
	"logits/rejected": -2.04327130317688,
	"logps/chosen": -1.2197258472442627,
	"logps/rejected": -1.6007359027862549,
	"loss": 1.261,
	"nll_loss": 1.1714200973510742,
	"rewards/accuracies": 0.76953125,
	"rewards/chosen": -0.18295888602733612,
	"rewards/margins": 0.057151518762111664,
	"rewards/rejected": -0.2401103973388672,
	"step": 320
	},
	{
	"epoch": 6.052009456264775,
	"eval_log_odds_chosen": 1.5137661695480347,
	"eval_log_odds_ratio": -0.21324041485786438,
	"eval_logits/chosen": -2.5153615474700928,
	"eval_logits/rejected": -2.389270067214966,
	"eval_logps/chosen": -1.2208881378173828,
	"eval_logps/rejected": -2.475594997406006,
	"eval_loss": 1.0919252634048462,
	"eval_nll_loss": 1.1019929647445679,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18313322961330414,
	"eval_rewards/margins": 0.1882060021162033,
	"eval_rewards/rejected": -0.37133923172950745,
	"eval_runtime": 0.8032,
	"eval_samples_per_second": 170.562,
	"eval_steps_per_second": 6.225,
	"step": 320
	},
	{
	"epoch": 6.657210401891253,
	"grad_norm": 14.943062782287598,
	"learning_rate": 3.6033917569043597e-07,
	"log_odds_chosen": 0.6752089858055115,
	"log_odds_ratio": -0.5140572190284729,
	"logits/chosen": -2.0157763957977295,
	"logits/rejected": -2.004314422607422,
	"logps/chosen": -1.2377139329910278,
	"logps/rejected": -1.692950963973999,
	"loss": 1.252,
	"nll_loss": 1.1812970638275146,
	"rewards/accuracies": 0.75390625,
	"rewards/chosen": -0.1856570839881897,
	"rewards/margins": 0.06828554719686508,
	"rewards/rejected": -0.25394266843795776,
	"step": 352
	},
	{
	"epoch": 7.26241134751773,
	"grad_norm": 24.735410690307617,
	"learning_rate": 3.296216625629211e-07,
	"log_odds_chosen": 0.8964105844497681,
	"log_odds_ratio": -0.46805524826049805,
	"logits/chosen": -1.9912079572677612,
	"logits/rejected": -1.955162525177002,
	"logps/chosen": -1.2576524019241333,
	"logps/rejected": -1.9145023822784424,
	"loss": 1.2436,
	"nll_loss": 1.170907974243164,
	"rewards/accuracies": 0.7578125,
	"rewards/chosen": -0.18864786624908447,
	"rewards/margins": 0.09852751344442368,
	"rewards/rejected": -0.28717538714408875,
	"step": 384
	},
	{
	"epoch": 7.5650118203309695,
	"eval_log_odds_chosen": 1.5138293504714966,
	"eval_log_odds_ratio": -0.21318714320659637,
	"eval_logits/chosen": -2.423281669616699,
	"eval_logits/rejected": -2.29191255569458,
	"eval_logps/chosen": -1.25368332862854,
	"eval_logps/rejected": -2.5206007957458496,
	"eval_loss": 1.0984269380569458,
	"eval_nll_loss": 1.1060694456100464,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18805250525474548,
	"eval_rewards/margins": 0.19003766775131226,
	"eval_rewards/rejected": -0.37809017300605774,
	"eval_runtime": 0.7836,
	"eval_samples_per_second": 174.83,
	"eval_steps_per_second": 6.381,
	"step": 400
	},
	{
	"epoch": 7.867612293144208,
	"grad_norm": 17.922605514526367,
	"learning_rate": 2.974982725547975e-07,
	"log_odds_chosen": 1.3920270204544067,
	"log_odds_ratio": -0.4031583368778229,
	"logits/chosen": -1.9781438112258911,
	"logits/rejected": -1.9409700632095337,
	"logps/chosen": -1.2178527116775513,
	"logps/rejected": -2.3021371364593506,
	"loss": 1.2447,
	"nll_loss": 1.1541370153427124,
	"rewards/accuracies": 0.7734375,
	"rewards/chosen": -0.18267790973186493,
	"rewards/margins": 0.16264265775680542,
	"rewards/rejected": -0.34532058238983154,
	"step": 416
	},
	{
	"epoch": 8.472813238770685,
	"grad_norm": 18.74088478088379,
	"learning_rate": 2.6453620722761895e-07,
	"log_odds_chosen": 1.4127886295318604,
	"log_odds_ratio": -0.45162278413772583,
	"logits/chosen": -1.9333115816116333,
	"logits/rejected": -1.9409185647964478,
	"logps/chosen": -1.3663212060928345,
	"logps/rejected": -2.5033111572265625,
	"loss": 1.2511,
	"nll_loss": 1.2117295265197754,
	"rewards/accuracies": 0.76953125,
	"rewards/chosen": -0.20494820177555084,
	"rewards/margins": 0.17054852843284607,
	"rewards/rejected": -0.37549668550491333,
	"step": 448
	},
	{
	"epoch": 9.078014184397164,
	"grad_norm": 22.932889938354492,
	"learning_rate": 2.3131747660339394e-07,
	"log_odds_chosen": 1.6455353498458862,
	"log_odds_ratio": -0.44734472036361694,
	"logits/chosen": -1.923959493637085,
	"logits/rejected": -1.9963738918304443,
	"logps/chosen": -1.3357137441635132,
	"logps/rejected": -2.676542043685913,
	"loss": 1.2336,
	"nll_loss": 1.197737455368042,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.2003570795059204,
	"rewards/margins": 0.2011241912841797,
	"rewards/rejected": -0.4014812707901001,
	"step": 480
	},
	{
	"epoch": 9.078014184397164,
	"eval_log_odds_chosen": 1.4782460927963257,
	"eval_log_odds_ratio": -0.21918949484825134,
	"eval_logits/chosen": -2.3784029483795166,
	"eval_logits/rejected": -2.244081497192383,
	"eval_logps/chosen": -1.296876072883606,
	"eval_logps/rejected": -2.5429465770721436,
	"eval_loss": 1.1173924207687378,
	"eval_nll_loss": 1.114406704902649,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.1945313960313797,
	"eval_rewards/margins": 0.18691061437129974,
	"eval_rewards/rejected": -0.38144201040267944,
	"eval_runtime": 0.8027,
	"eval_samples_per_second": 170.681,
	"eval_steps_per_second": 6.229,
	"step": 480
	},
	{
	"epoch": 9.68321513002364,
	"grad_norm": 27.342180252075195,
	"learning_rate": 1.984286226342056e-07,
	"log_odds_chosen": 2.1517550945281982,
	"log_odds_ratio": -0.3539085388183594,
	"logits/chosen": -2.0003914833068848,
	"logits/rejected": -1.958829641342163,
	"logps/chosen": -1.2932095527648926,
	"logps/rejected": -3.1245839595794678,
	"loss": 1.2519,
	"nll_loss": 1.177643060684204,
	"rewards/accuracies": 0.796875,
	"rewards/chosen": -0.19398145377635956,
	"rewards/margins": 0.2747061550617218,
	"rewards/rejected": -0.46868759393692017,
	"step": 512
	},
	{
	"epoch": 10.288416075650119,
	"grad_norm": 21.41707992553711,
	"learning_rate": 1.6645036265170313e-07,
	"log_odds_chosen": 2.206300973892212,
	"log_odds_ratio": -0.41246891021728516,
	"logits/chosen": -1.9226995706558228,
	"logits/rejected": -1.9452672004699707,
	"logps/chosen": -1.3459149599075317,
	"logps/rejected": -3.243032455444336,
	"loss": 1.2377,
	"nll_loss": 1.1743229627609253,
	"rewards/accuracies": 0.73828125,
	"rewards/chosen": -0.20188726484775543,
	"rewards/margins": 0.28456762433052063,
	"rewards/rejected": -0.48645487427711487,
	"step": 544
	},
	{
	"epoch": 10.591016548463356,
	"eval_log_odds_chosen": 1.4928518533706665,
	"eval_log_odds_ratio": -0.21719364821910858,
	"eval_logits/chosen": -2.406038999557495,
	"eval_logits/rejected": -2.2726240158081055,
	"eval_logps/chosen": -1.2588163614273071,
	"eval_logps/rejected": -2.5091373920440674,
	"eval_loss": 1.0936493873596191,
	"eval_nll_loss": 1.0926154851913452,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18882247805595398,
	"eval_rewards/margins": 0.18754813075065613,
	"eval_rewards/rejected": -0.3763706088066101,
	"eval_runtime": 0.7924,
	"eval_samples_per_second": 172.882,
	"eval_steps_per_second": 6.31,
	"step": 560
	},
	{
	"epoch": 10.893617021276595,
	"grad_norm": 28.251604080200195,
	"learning_rate": 1.3594733566170925e-07,
	"log_odds_chosen": 1.9746395349502563,
	"log_odds_ratio": -0.39856040477752686,
	"logits/chosen": -1.9557344913482666,
	"logits/rejected": -1.9873769283294678,
	"logps/chosen": -1.3181676864624023,
	"logps/rejected": -2.9867465496063232,
	"loss": 1.2325,
	"nll_loss": 1.2073771953582764,
	"rewards/accuracies": 0.796875,
	"rewards/chosen": -0.19772517681121826,
	"rewards/margins": 0.2502868175506592,
	"rewards/rejected": -0.44801196455955505,
	"step": 576
	},
	{
	"epoch": 11.498817966903074,
	"grad_norm": 30.6031551361084,
	"learning_rate": 1.0745813253325956e-07,
	"log_odds_chosen": 2.6722493171691895,
	"log_odds_ratio": -0.35422736406326294,
	"logits/chosen": -1.9136030673980713,
	"logits/rejected": -1.8901042938232422,
	"logps/chosen": -1.233724594116211,
	"logps/rejected": -3.5643980503082275,
	"loss": 1.2295,
	"nll_loss": 1.1232733726501465,
	"rewards/accuracies": 0.79296875,
	"rewards/chosen": -0.18505869805812836,
	"rewards/margins": 0.3496010899543762,
	"rewards/rejected": -0.534659743309021,
	"step": 608
	},
	{
	"epoch": 12.10401891252955,
	"grad_norm": 24.5542049407959,
	"learning_rate": 8.148578611867113e-08,
	"log_odds_chosen": 2.4431307315826416,
	"log_odds_ratio": -0.3909703195095062,
	"logits/chosen": -1.8700110912322998,
	"logits/rejected": -1.9457833766937256,
	"logps/chosen": -1.2895874977111816,
	"logps/rejected": -3.4220337867736816,
	"loss": 1.2212,
	"nll_loss": 1.1831854581832886,
	"rewards/accuracies": 0.75,
	"rewards/chosen": -0.19343814253807068,
	"rewards/margins": 0.31986698508262634,
	"rewards/rejected": -0.5133051872253418,
	"step": 640
	},
	{
	"epoch": 12.10401891252955,
	"eval_log_odds_chosen": 1.515697956085205,
	"eval_log_odds_ratio": -0.213613823056221,
	"eval_logits/chosen": -2.373903274536133,
	"eval_logits/rejected": -2.2387218475341797,
	"eval_logps/chosen": -1.2586114406585693,
	"eval_logps/rejected": -2.530747175216675,
	"eval_loss": 1.0882254838943481,
	"eval_nll_loss": 1.085294485092163,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18879172205924988,
	"eval_rewards/margins": 0.19082039594650269,
	"eval_rewards/rejected": -0.37961211800575256,
	"eval_runtime": 0.8037,
	"eval_samples_per_second": 170.464,
	"eval_steps_per_second": 6.221,
	"step": 640
	},
	{
	"epoch": 12.709219858156029,
	"grad_norm": 19.59035301208496,
	"learning_rate": 5.848888922025552e-08,
	"log_odds_chosen": 2.298971176147461,
	"log_odds_ratio": -0.4026568830013275,
	"logits/chosen": -1.9471426010131836,
	"logits/rejected": -1.9182159900665283,
	"logps/chosen": -1.3048053979873657,
	"logps/rejected": -3.2884950637817383,
	"loss": 1.2173,
	"nll_loss": 1.1782861948013306,
	"rewards/accuracies": 0.76171875,
	"rewards/chosen": -0.19572080671787262,
	"rewards/margins": 0.2975533902645111,
	"rewards/rejected": -0.4932742416858673,
	"step": 672
	},
	{
	"epoch": 13.314420803782506,
	"grad_norm": 29.107627868652344,
	"learning_rate": 3.887349723342303e-08,
	"log_odds_chosen": 2.654096841812134,
	"log_odds_ratio": -0.38686317205429077,
	"logits/chosen": -1.9159326553344727,
	"logits/rejected": -1.9410839080810547,
	"logps/chosen": -1.2585792541503906,
	"logps/rejected": -3.5659923553466797,
	"loss": 1.2261,
	"nll_loss": 1.1586594581604004,
	"rewards/accuracies": 0.76953125,
	"rewards/chosen": -0.18878689408302307,
	"rewards/margins": 0.34611204266548157,
	"rewards/rejected": -0.5348988771438599,
	"step": 704
	},
	{
	"epoch": 13.617021276595745,
	"eval_log_odds_chosen": 1.5199410915374756,
	"eval_log_odds_ratio": -0.21233825385570526,
	"eval_logits/chosen": -2.366751194000244,
	"eval_logits/rejected": -2.2316524982452393,
	"eval_logps/chosen": -1.2421499490737915,
	"eval_logps/rejected": -2.5126953125,
	"eval_loss": 1.0794531106948853,
	"eval_nll_loss": 1.0783252716064453,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18632249534130096,
	"eval_rewards/margins": 0.190581813454628,
	"eval_rewards/rejected": -0.37690430879592896,
	"eval_runtime": 0.7829,
	"eval_samples_per_second": 175.001,
	"eval_steps_per_second": 6.387,
	"step": 720
	},
	{
	"epoch": 13.919621749408984,
	"grad_norm": 22.09730339050293,
	"learning_rate": 2.298595844092377e-08,
	"log_odds_chosen": 2.671109199523926,
	"log_odds_ratio": -0.3479268252849579,
	"logits/chosen": -2.0034313201904297,
	"logits/rejected": -1.870398998260498,
	"logps/chosen": -1.2474991083145142,
	"logps/rejected": -3.5732622146606445,
	"loss": 1.2194,
	"nll_loss": 1.1217308044433594,
	"rewards/accuracies": 0.80859375,
	"rewards/chosen": -0.18712489306926727,
	"rewards/margins": 0.3488644063472748,
	"rewards/rejected": -0.5359892845153809,
	"step": 736
	},
	{
	"epoch": 14.52482269503546,
	"grad_norm": 24.665891647338867,
	"learning_rate": 1.1106798553464802e-08,
	"log_odds_chosen": 2.7288260459899902,
	"log_odds_ratio": -0.34282395243644714,
	"logits/chosen": -1.9847919940948486,
	"logits/rejected": -1.9164719581604004,
	"logps/chosen": -1.250791311264038,
	"logps/rejected": -3.6267054080963135,
	"loss": 1.2016,
	"nll_loss": 1.1445385217666626,
	"rewards/accuracies": 0.84375,
	"rewards/chosen": -0.18761873245239258,
	"rewards/margins": 0.3563871383666992,
	"rewards/rejected": -0.5440058708190918,
	"step": 768
	},
	{
	"epoch": 15.130023640661939,
	"grad_norm": 47.552574157714844,
	"learning_rate": 3.4457674771554422e-09,
	"log_odds_chosen": 2.26895809173584,
	"log_odds_ratio": -0.3884022831916809,
	"logits/chosen": -1.9943946599960327,
	"logits/rejected": -1.961279034614563,
	"logps/chosen": -1.3015713691711426,
	"logps/rejected": -3.266200304031372,
	"loss": 1.2176,
	"nll_loss": 1.1944975852966309,
	"rewards/accuracies": 0.76953125,
	"rewards/chosen": -0.1952357143163681,
	"rewards/margins": 0.29469433426856995,
	"rewards/rejected": -0.48993009328842163,
	"step": 800
	},
	{
	"epoch": 15.130023640661939,
	"eval_log_odds_chosen": 1.5204813480377197,
	"eval_log_odds_ratio": -0.21171817183494568,
	"eval_logits/chosen": -2.370277166366577,
	"eval_logits/rejected": -2.233962059020996,
	"eval_logps/chosen": -1.2457667589187622,
	"eval_logps/rejected": -2.517129898071289,
	"eval_loss": 1.081107497215271,
	"eval_nll_loss": 1.0765924453735352,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18686501681804657,
	"eval_rewards/margins": 0.19070449471473694,
	"eval_rewards/rejected": -0.3775694966316223,
	"eval_runtime": 0.8025,
	"eval_samples_per_second": 170.724,
	"eval_steps_per_second": 6.231,
	"step": 800
	},
	{
	"epoch": 15.735224586288416,
	"grad_norm": 17.138763427734375,
	"learning_rate": 1.3813576683111006e-10,
	"log_odds_chosen": 2.620955228805542,
	"log_odds_ratio": -0.34706899523735046,
	"logits/chosen": -1.9596831798553467,
	"logits/rejected": -1.9431588649749756,
	"logps/chosen": -1.2250535488128662,
	"logps/rejected": -3.4995248317718506,
	"loss": 1.2191,
	"nll_loss": 1.129616379737854,
	"rewards/accuracies": 0.78515625,
	"rewards/chosen": -0.18375803530216217,
	"rewards/margins": 0.34117066860198975,
	"rewards/rejected": -0.5249287486076355,
	"step": 832
	},
	{
	"epoch": 15.886524822695035,
	"grad_norm": 26.069650650024414,
	"learning_rate": 0.0,
	"log_odds_chosen": 2.719402551651001,
	"log_odds_ratio": -0.3425367772579193,
	"logits/chosen": -2.0392448902130127,
	"logits/rejected": -1.9386732578277588,
	"logps/chosen": -1.2458713054656982,
	"logps/rejected": -3.6082699298858643,
	"loss": 1.2157,
	"nll_loss": 1.1475220918655396,
	"rewards/accuracies": 0.828125,
	"rewards/chosen": -0.1868807077407837,
	"rewards/margins": 0.35435977578163147,
	"rewards/rejected": -0.5412405133247375,
	"step": 840
	},
	{
	"epoch": 15.886524822695035,
	"eval_log_odds_chosen": 1.5112136602401733,
	"eval_log_odds_ratio": -0.2135576754808426,
	"eval_logits/chosen": -2.3702893257141113,
	"eval_logits/rejected": -2.2342278957366943,
	"eval_logps/chosen": -1.250806450843811,
	"eval_logps/rejected": -2.515653133392334,
	"eval_loss": 1.0810010433197021,
	"eval_nll_loss": 1.0763533115386963,
	"eval_rewards/accuracies": 1.0,
	"eval_rewards/chosen": -0.18762096762657166,
	"eval_rewards/margins": 0.18972699344158173,
	"eval_rewards/rejected": -0.37734800577163696,
	"eval_runtime": 0.7924,
	"eval_samples_per_second": 172.894,
	"eval_steps_per_second": 6.31,
	"step": 840
	}
	],
	"logging_steps": 32,
	"max_steps": 840,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 17,
	"save_steps": 80,
	"total_flos": 0.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}