End of training

Files changed (5) hide show

README.md CHANGED Viewed

@@ -66,7 +66,7 @@ lora_model_dir: null
 lora_r: 8
 lora_target_linear: true
 lr_scheduler: cosine
-max_steps: 1
 micro_batch_size: 2
 mlflow_experiment_name: /tmp/591019ce86cf2dcb_train_data.json
 model_type: AutoModelForCausalLM
@@ -93,7 +93,7 @@ wandb_name: 17a240b4-ceb0-41a9-89f8-a59905875425
 wandb_project: Gradients-On-Demand
 wandb_run: your_name
 wandb_runid: 17a240b4-ceb0-41a9-89f8-a59905875425
-warmup_steps: 1
 weight_decay: 0.0
 xformers_attention: null
@@ -130,7 +130,7 @@ The following hyperparameters were used during training:
 - total_train_batch_size: 8
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
-- lr_scheduler_warmup_steps: 2
 - training_steps: 1
 ### Training results

 lora_r: 8
 lora_target_linear: true
 lr_scheduler: cosine
+max_steps: 50
 micro_batch_size: 2
 mlflow_experiment_name: /tmp/591019ce86cf2dcb_train_data.json
 model_type: AutoModelForCausalLM
 wandb_project: Gradients-On-Demand
 wandb_run: your_name
 wandb_runid: 17a240b4-ceb0-41a9-89f8-a59905875425
+warmup_steps: 10
 weight_decay: 0.0
 xformers_attention: null
 - total_train_batch_size: 8
 - optimizer: Use OptimizerNames.ADAMW_BNB with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
+- lr_scheduler_warmup_steps: 10
 - training_steps: 1
 ### Training results

adapter_config.json CHANGED Viewed

@@ -21,9 +21,9 @@
   "revision": null,
   "target_modules": [
     "dense_4h_to_h",
     "dense_h_to_4h",
-    "query_key_value",
-    "dense"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "revision": null,
   "target_modules": [
     "dense_4h_to_h",
+    "dense",
     "dense_h_to_4h",
+    "query_key_value"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27b0830151da6afbce78377dd2eadd261ed7731efc38668015f0ecbd70a13498
 size 12653258

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff5540e1b73e1865ee7c5cb28d4050f35c774019eea45b6a3b306f2f041e3968
 size 12653258

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9424093e2c726d671d07e8d42247ba317147000f3518a0430d99e9573c7b7855
 size 12609312

 version https://git-lfs.github.com/spec/v1
+oid sha256:30d0aaafae70d3b651a566cf21f1247ea262da2b5d0662be6205f31ad739a36e
 size 12609312

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28214b84197a0eaddac17f0852699480ec5a61dd926206823d756c5e3fe27b79
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdd352635a05fe51ce13e8faadd9fe05eb2a4b019bdd101766ce5ac9c61947db
 size 6776