Training in progress, step 500

693d611 over 1 year ago

12.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 20.0,
	"global_step": 500,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.04,
	"learning_rate": 1.9968e-05,
	"loss": 2.3062,
	"step": 1
	},
	{
	"epoch": 1.28,
	"learning_rate": 1.8976000000000003e-05,
	"loss": 2.3021,
	"step": 32
	},
	{
	"epoch": 1.28,
	"eval_accuracy": 0.12,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.56061553955078,
	"eval_f1": 0.05185185185185186,
	"eval_gpu_ram_allocated": 0.3903946876525879,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 29,
	"eval_loss": 2.2975096702575684,
	"eval_precision": 0.11020408163265306,
	"eval_recall": 0.12,
	"eval_runtime": 0.2913,
	"eval_samples_per_second": 686.621,
	"eval_steps_per_second": 24.032,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8423919677734375,
	"step": 32
	},
	{
	"epoch": 2.56,
	"learning_rate": 1.7952e-05,
	"loss": 2.2615,
	"step": 64
	},
	{
	"epoch": 2.56,
	"eval_accuracy": 0.31,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.56061553955078,
	"eval_f1": 0.2339181338497344,
	"eval_gpu_ram_allocated": 0.39037179946899414,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 30,
	"eval_loss": 2.192563533782959,
	"eval_precision": 0.4648550724637681,
	"eval_recall": 0.31,
	"eval_runtime": 0.2737,
	"eval_samples_per_second": 730.737,
	"eval_steps_per_second": 25.576,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8513946533203125,
	"step": 64
	},
	{
	"epoch": 3.84,
	"learning_rate": 1.6928e-05,
	"loss": 2.0677,
	"step": 96
	},
	{
	"epoch": 3.84,
	"eval_accuracy": 0.51,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.56061553955078,
	"eval_f1": 0.4301287248566463,
	"eval_gpu_ram_allocated": 0.39051055908203125,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 22,
	"eval_loss": 1.965756893157959,
	"eval_precision": 0.3949837686822981,
	"eval_recall": 0.51,
	"eval_runtime": 0.3124,
	"eval_samples_per_second": 640.226,
	"eval_steps_per_second": 22.408,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8537025451660156,
	"step": 96
	},
	{
	"epoch": 5.12,
	"learning_rate": 1.5904000000000002e-05,
	"loss": 1.8562,
	"step": 128
	},
	{
	"epoch": 5.12,
	"eval_accuracy": 0.545,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560619354248047,
	"eval_f1": 0.46549419445976403,
	"eval_gpu_ram_allocated": 0.39040040969848633,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 41,
	"eval_loss": 1.8382666110992432,
	"eval_precision": 0.45874241633360424,
	"eval_recall": 0.545,
	"eval_runtime": 0.2734,
	"eval_samples_per_second": 731.569,
	"eval_steps_per_second": 25.605,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.857379913330078,
	"step": 128
	},
	{
	"epoch": 6.4,
	"learning_rate": 1.4880000000000002e-05,
	"loss": 1.6929,
	"step": 160
	},
	{
	"epoch": 6.4,
	"eval_accuracy": 0.555,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560688018798828,
	"eval_f1": 0.4942300415011664,
	"eval_gpu_ram_allocated": 0.39035606384277344,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 29,
	"eval_loss": 1.7403417825698853,
	"eval_precision": 0.5261452781574115,
	"eval_recall": 0.555,
	"eval_runtime": 0.2751,
	"eval_samples_per_second": 727.05,
	"eval_steps_per_second": 25.447,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.854930877685547,
	"step": 160
	},
	{
	"epoch": 7.68,
	"learning_rate": 1.3856e-05,
	"loss": 1.5569,
	"step": 192
	},
	{
	"epoch": 7.68,
	"eval_accuracy": 0.585,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560688018798828,
	"eval_f1": 0.5466732171455438,
	"eval_gpu_ram_allocated": 0.39036035537719727,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 37,
	"eval_loss": 1.6662890911102295,
	"eval_precision": 0.6495824550556009,
	"eval_recall": 0.585,
	"eval_runtime": 0.2754,
	"eval_samples_per_second": 726.273,
	"eval_steps_per_second": 25.42,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8549232482910156,
	"step": 192
	},
	{
	"epoch": 8.96,
	"learning_rate": 1.2832e-05,
	"loss": 1.4636,
	"step": 224
	},
	{
	"epoch": 8.96,
	"eval_accuracy": 0.58,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560688018798828,
	"eval_f1": 0.5475206766586077,
	"eval_gpu_ram_allocated": 0.39038610458374023,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 30,
	"eval_loss": 1.612341284751892,
	"eval_precision": 0.5538885280526147,
	"eval_recall": 0.58,
	"eval_runtime": 0.2831,
	"eval_samples_per_second": 706.386,
	"eval_steps_per_second": 24.724,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8539352416992188,
	"step": 224
	},
	{
	"epoch": 10.24,
	"learning_rate": 1.1808000000000001e-05,
	"loss": 1.3683,
	"step": 256
	},
	{
	"epoch": 10.24,
	"eval_accuracy": 0.595,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.56069564819336,
	"eval_f1": 0.5828575381901582,
	"eval_gpu_ram_allocated": 0.39037179946899414,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 41,
	"eval_loss": 1.5615015029907227,
	"eval_precision": 0.6016443571048834,
	"eval_recall": 0.595,
	"eval_runtime": 0.2727,
	"eval_samples_per_second": 733.478,
	"eval_steps_per_second": 25.672,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8527297973632812,
	"step": 256
	},
	{
	"epoch": 11.52,
	"learning_rate": 1.0784e-05,
	"loss": 1.2649,
	"step": 288
	},
	{
	"epoch": 11.52,
	"eval_accuracy": 0.61,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560710906982422,
	"eval_f1": 0.590376982026963,
	"eval_gpu_ram_allocated": 0.3903775215148926,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 30,
	"eval_loss": 1.526059627532959,
	"eval_precision": 0.6242595289277212,
	"eval_recall": 0.61,
	"eval_runtime": 0.2757,
	"eval_samples_per_second": 725.456,
	"eval_steps_per_second": 25.391,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.864604949951172,
	"step": 288
	},
	{
	"epoch": 12.8,
	"learning_rate": 9.760000000000001e-06,
	"loss": 1.1968,
	"step": 320
	},
	{
	"epoch": 12.8,
	"eval_accuracy": 0.615,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560710906982422,
	"eval_f1": 0.6011782661782662,
	"eval_gpu_ram_allocated": 0.3903789520263672,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 45,
	"eval_loss": 1.4975976943969727,
	"eval_precision": 0.6069767600820232,
	"eval_recall": 0.615,
	"eval_runtime": 0.2757,
	"eval_samples_per_second": 725.338,
	"eval_steps_per_second": 25.387,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.876636505126953,
	"step": 320
	},
	{
	"epoch": 14.08,
	"learning_rate": 8.736e-06,
	"loss": 1.1291,
	"step": 352
	},
	{
	"epoch": 14.08,
	"eval_accuracy": 0.615,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560710906982422,
	"eval_f1": 0.598349347882615,
	"eval_gpu_ram_allocated": 0.39051055908203125,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 47,
	"eval_loss": 1.4755542278289795,
	"eval_precision": 0.6163792581687317,
	"eval_recall": 0.615,
	"eval_runtime": 0.2792,
	"eval_samples_per_second": 716.432,
	"eval_steps_per_second": 25.075,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.874866485595703,
	"step": 352
	},
	{
	"epoch": 15.36,
	"learning_rate": 7.712e-06,
	"loss": 1.0673,
	"step": 384
	},
	{
	"epoch": 15.36,
	"eval_accuracy": 0.62,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560714721679688,
	"eval_f1": 0.6063605762373413,
	"eval_gpu_ram_allocated": 0.39066219329833984,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 35,
	"eval_loss": 1.4659814834594727,
	"eval_precision": 0.6257950937950938,
	"eval_recall": 0.62,
	"eval_runtime": 0.2762,
	"eval_samples_per_second": 724.01,
	"eval_steps_per_second": 25.34,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.875171661376953,
	"step": 384
	},
	{
	"epoch": 16.64,
	"learning_rate": 6.688e-06,
	"loss": 0.9884,
	"step": 416
	},
	{
	"epoch": 16.64,
	"eval_accuracy": 0.625,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560771942138672,
	"eval_f1": 0.6134740161239549,
	"eval_gpu_ram_allocated": 0.3903632164001465,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 33,
	"eval_loss": 1.4409570693969727,
	"eval_precision": 0.6203985870473285,
	"eval_recall": 0.625,
	"eval_runtime": 0.2727,
	"eval_samples_per_second": 733.533,
	"eval_steps_per_second": 25.674,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8757286071777344,
	"step": 416
	},
	{
	"epoch": 17.92,
	"learning_rate": 5.664e-06,
	"loss": 0.9743,
	"step": 448
	},
	{
	"epoch": 17.92,
	"eval_accuracy": 0.635,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560775756835938,
	"eval_f1": 0.6233316744944652,
	"eval_gpu_ram_allocated": 0.3904705047607422,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 44,
	"eval_loss": 1.4327807426452637,
	"eval_precision": 0.6343307918132929,
	"eval_recall": 0.635,
	"eval_runtime": 0.2727,
	"eval_samples_per_second": 733.287,
	"eval_steps_per_second": 25.665,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.874713897705078,
	"step": 448
	},
	{
	"epoch": 19.2,
	"learning_rate": 4.6400000000000005e-06,
	"loss": 0.926,
	"step": 480
	},
	{
	"epoch": 19.2,
	"eval_accuracy": 0.615,
	"eval_disk_space_total": 78.1898422241211,
	"eval_disk_space_used": 24.560775756835938,
	"eval_f1": 0.6088320577269858,
	"eval_gpu_ram_allocated": 0.39035749435424805,
	"eval_gpu_ram_cached": 12.833984375,
	"eval_gpu_ram_total": 39.56402587890625,
	"eval_gpu_utilization": 31,
	"eval_loss": 1.4344311952590942,
	"eval_precision": 0.6237836346659876,
	"eval_recall": 0.615,
	"eval_runtime": 0.2758,
	"eval_samples_per_second": 725.226,
	"eval_steps_per_second": 25.383,
	"eval_system_ram_total": 83.48074722290039,
	"eval_system_ram_used": 3.8742332458496094,
	"step": 480
	}
	],
	"max_steps": 625,
	"num_train_epochs": 25,
	"total_flos": 287732237726976.0,
	"trial_name": null,
	"trial_params": null
	}