tangledgroup
/

tangled-llama-33m-32k-base-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 23 days ago

Commit

840104b

•

1 Parent(s): 94081ee

train model

Files changed (1) hide show

scripts/model.yaml +3 -2

scripts/model.yaml CHANGED Viewed

@@ -44,7 +44,7 @@ resume: "auto"
 # Data-related arguments. If not provided, the default is ``litgpt.data.TinyLlama``.
 data:
   class_path: LitData
   init_args:
     data_path: "../data/"
     num_workers: 16
@@ -110,8 +110,9 @@ eval:
 # Optimizer-related arguments
 optimizer:
   # class_path: torch.optim.AdamW
   # class_path: bitsandbytes.optim.PagedAdamW
-  class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit
   init_args:

 # Data-related arguments. If not provided, the default is ``litgpt.data.TinyLlama``.
 data:
   class_path: LitData
   init_args:
     data_path: "../data/"
     num_workers: 16
 # Optimizer-related arguments
 optimizer:
   # class_path: torch.optim.AdamW
+  class_path: grokadamw.GrokAdamW
   # class_path: bitsandbytes.optim.PagedAdamW
+  # class_path: bitsandbytes.optim.AdamW8bit
   # class_path: bitsandbytes.optim.PagedAdamW8bit
   init_args: