tangledgroup
/

tangled-llama-33m-32k-base-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 23 days ago

Commit

2e72d22

•

1 Parent(s): 9e576aa

model

Files changed (1) hide show

scripts/model.yaml +3 -3

scripts/model.yaml CHANGED Viewed

@@ -27,7 +27,8 @@ model_config:
 out_dir: out/pretrain/
 # The precision to use for pretraining. Possible choices: "bf16-true", "bf16-mixed", "32-true". (type: Optional[str], default: null)
-precision: bf16-mixed
 # Optional path to a checkpoint directory to initialize the model from.
 # Useful for continued pretraining. Mutually exclusive with ``resume``. (type: Optional[Path], default: null)
@@ -100,8 +101,7 @@ eval:
 # Optimizer-related arguments
 optimizer:
   # class_path: torch.optim.AdamW
-  class_path: bnb.optim.PagedAdamW
-  # class_path: grokadamw.GrokAdamW
   init_args:
     #   (type: float, default: 0.001)

 out_dir: out/pretrain/
 # The precision to use for pretraining. Possible choices: "bf16-true", "bf16-mixed", "32-true". (type: Optional[str], default: null)
+# precision: bf16-mixed
+precision: bf16-true
 # Optional path to a checkpoint directory to initialize the model from.
 # Useful for continued pretraining. Mutually exclusive with ``resume``. (type: Optional[Path], default: null)
 # Optimizer-related arguments
 optimizer:
   # class_path: torch.optim.AdamW
+  class_path: PagedAdamW
   init_args:
     #   (type: float, default: 0.001)