StyleDistance
/

styledistance

@@ -1,25 +1,25 @@
 {
-    "output_dir": "./output/train-styledistance-model/_checkpoints",
     "overwrite_output_dir": false,
     "do_train": false,
     "do_eval": true,
     "do_predict": false,
     "evaluation_strategy": "steps",
     "prediction_loss_only": false,
-    "per_device_train_batch_size": 128,
-    "per_device_eval_batch_size": 128,
     "per_gpu_train_batch_size": null,
     "per_gpu_eval_batch_size": null,
-    "gradient_accumulation_steps": 1,
     "eval_accumulation_steps": 1,
     "eval_delay": 0,
-    "learning_rate": 0.0001,
     "weight_decay": 0.01,
     "adam_beta1": 0.9,
     "adam_beta2": 0.999,
     "adam_epsilon": 1e-08,
     "max_grad_norm": 1.0,
-    "num_train_epochs": 10,
     "max_steps": -1,
     "lr_scheduler_type": "linear",
     "lr_scheduler_kwargs": {},
@@ -28,13 +28,13 @@
     "log_level": "passive",
     "log_level_replica": "warning",
     "log_on_each_node": true,
-    "logging_dir": "./output/train-styledistance-model/_checkpoints/runs/Jul17_08-46-22_nlpgpu04.seas.upenn.edu",
     "logging_strategy": "steps",
     "logging_first_step": false,
     "logging_steps": 1,
     "logging_nan_inf_filter": true,
     "save_strategy": "steps",
-    "save_steps": 100,
     "save_total_limit": 1,
     "save_safetensors": false,
     "save_on_each_node": false,
@@ -59,11 +59,11 @@
     "tpu_metrics_debug": false,
     "debug": [],
     "dataloader_drop_last": false,
-    "eval_steps": 100,
     "dataloader_num_workers": 0,
     "dataloader_prefetch_factor": null,
     "past_index": -1,
-    "run_name": "DataDreamer - Train StyleDistance Model",
     "disable_tqdm": true,
     "remove_unused_columns": false,
     "label_names": null,

 {
+    "output_dir": "./output/train-wegmann--styledistance-model/_checkpoints",
     "overwrite_output_dir": false,
     "do_train": false,
     "do_eval": true,
     "do_predict": false,
     "evaluation_strategy": "steps",
     "prediction_loss_only": false,
+    "per_device_train_batch_size": 16,
+    "per_device_eval_batch_size": 16,
     "per_gpu_train_batch_size": null,
     "per_gpu_eval_batch_size": null,
+    "gradient_accumulation_steps": 8,
     "eval_accumulation_steps": 1,
     "eval_delay": 0,
+    "learning_rate": 0.001,
     "weight_decay": 0.01,
     "adam_beta1": 0.9,
     "adam_beta2": 0.999,
     "adam_epsilon": 1e-08,
     "max_grad_norm": 1.0,
+    "num_train_epochs": 20,
     "max_steps": -1,
     "lr_scheduler_type": "linear",
     "lr_scheduler_kwargs": {},
     "log_level": "passive",
     "log_level_replica": "warning",
     "log_on_each_node": true,
+    "logging_dir": "./output/train-wegmann--styledistance-model/_checkpoints/runs/Jul21_05-54-20_nlpgpu04.seas.upenn.edu",
     "logging_strategy": "steps",
     "logging_first_step": false,
     "logging_steps": 1,
     "logging_nan_inf_filter": true,
     "save_strategy": "steps",
+    "save_steps": 200,
     "save_total_limit": 1,
     "save_safetensors": false,
     "save_on_each_node": false,
     "tpu_metrics_debug": false,
     "debug": [],
     "dataloader_drop_last": false,
+    "eval_steps": 200,
     "dataloader_num_workers": 0,
     "dataloader_prefetch_factor": null,
     "past_index": -1,
+    "run_name": "DataDreamer - Train Wegmann + StyleDistance Model",
     "disable_tqdm": true,
     "remove_unused_columns": false,
     "label_names": null,