tangledgroup
/

tangled-llama-33m-32k-base-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on Sep 25, 2024

Commit

bb8cdc8

·

1 Parent(s): 7911b8f

model

Files changed (1) hide show

scripts/model.yaml +4 -2

scripts/model.yaml CHANGED Viewed

@@ -56,7 +56,8 @@ train:
   global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
-  micro_batch_size: 16 # 4
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000
@@ -102,7 +103,8 @@ eval:
 # Optimizer-related arguments
 optimizer:
-  class_path: torch.optim.AdamW
   # class_path: bitsandbytes.optim.PagedAdamW
   # class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit

   global_batch_size: 512
   # Number of samples per data-parallel rank (type: int, default: 4)
+  # micro_batch_size: 16
+  micro_batch_size: 32
   # Number of iterations with learning rate warmup active (type: int, default: 2000)
   lr_warmup_steps: 2000
 # Optimizer-related arguments
 optimizer:
+  # class_path: torch.optim.AdamW
+  class_path: torch.optim.PagedAdamW
   # class_path: bitsandbytes.optim.PagedAdamW
   # class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit