plaguss
/

zephyr-7b-lora-adapter-dpo-dibt-v0

@@ -7,6 +7,9 @@ format_args:
 model_args:
   pretrained_model_name_or_path: alignment-handbook/zephyr-7b-sft-full
   torch_dtype: float16
 peft_config:
   r: 16
@@ -26,41 +29,44 @@ peft_config:
 wandb_args:
   entity: argilla-io
   project: dibt-dpo
-  name: zephyr-7b-lora-dpo-dibt-v0
 training_args:
-  bf16: true
   beta: 0.1
   loss_type: sigmoid
   do_eval: true
   do_train: true
   evaluation_strategy: steps
-  eval_steps: 15
-  gradient_accumulation_steps: 2
   gradient_checkpointing: true
-  gradient_checkpointing_kwargs:
-    use_reentrant: False
   hub_model_id: plaguss/zephyr-7b-lora-dpo-dibt-v0
   hub_model_revision: v0
   hub_strategy: every_save
   hub_private_repo: true
   push_to_hub: true
-  learning_rate: 5.0e-7
   logging_steps: 10
   lr_scheduler_type: cosine
-  max_length: 1024
-  max_prompt_length: 512
   num_train_epochs: 2
   optim: paged_adamw_32bit
   output_dir: data/zephyr-7b-sft-lora-dpo-v0
-  per_device_train_batch_size: 8
-  per_device_eval_batch_size: 8
-  save_strategy: epoch
   save_total_limit: null
   seed: 42
   warmup_ratio: 0.1
   report_to:
     - wandb
-use_accelerate: true
 use_unsloth: false

 model_args:
   pretrained_model_name_or_path: alignment-handbook/zephyr-7b-sft-full
   torch_dtype: float16
+  quantization_config:
+    quant_method: bitsandbytes
+    load_in_4bit: true
 peft_config:
   r: 16
 wandb_args:
   entity: argilla-io
   project: dibt-dpo
+  name: zephyr-7b-lora-dpo-dibt-openhermes-params-v0
 training_args:
+  # `trl.DPOTrainer`
   beta: 0.1
+  max_length: 1536
+  max_prompt_length: 1024
   loss_type: sigmoid
+  # `transformers.Trainer`
+  bf16: true
   do_eval: true
   do_train: true
   evaluation_strategy: steps
+  eval_steps: 20
+  gradient_accumulation_steps: 4
   gradient_checkpointing: true
   hub_model_id: plaguss/zephyr-7b-lora-dpo-dibt-v0
   hub_model_revision: v0
   hub_strategy: every_save
   hub_private_repo: true
   push_to_hub: true
+  learning_rate: 5.0e-5
   logging_steps: 10
   lr_scheduler_type: cosine
   num_train_epochs: 2
   optim: paged_adamw_32bit
   output_dir: data/zephyr-7b-sft-lora-dpo-v0
+  load_best_model_at_end: true
+  metric_for_best_model: rewards/accuracies
+  greater_is_better: true
+  per_device_train_batch_size: 4
+  per_device_eval_batch_size: 16
+  save_strategy: steps
   save_total_limit: null
   seed: 42
   warmup_ratio: 0.1
   report_to:
     - wandb
+use_accelerate: false
 use_unsloth: false