tangledgroup
/

tangled-llama-33m-32k-base-v0.1

Text Generation

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 28 days ago

Commit

ac1b85b

•

1 Parent(s): 168831a

train model

Files changed (1) hide show

scripts/train_model.py +1 -1

scripts/train_model.py CHANGED Viewed

@@ -252,7 +252,7 @@ print(data_collator)
 def collate_fn(examples):
     texts = [ex['text'] for ex in examples]
-    batch = tokenizer(texts, padding=True, truncation=True, return_tensors='pt', max_length=32 * 1024)
     batch['labels'] = batch['input_ids'].clone()
     return batch

 def collate_fn(examples):
     texts = [ex['text'] for ex in examples]
+    batch = tokenizer(texts, padding=True, truncation=True, return_tensors='pt', max_length=32 * 1024,  return_token_type_ids=False)
     batch['labels'] = batch['input_ids'].clone()
     return batch