Spaces:

daresearch
/

ll-8b-training

Runtime error

daresearch commited on Dec 25, 2024

Commit

7948b59

verified ·

1 Parent(s): a35a06c

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -120,24 +120,25 @@ model = FastLanguageModel.get_peft_model(
 trainer = SFTTrainer(
     model=model,
     tokenizer=tokenizer,
-    train_dataset=train_dataset,  # Updated to use train_dataset
-    eval_dataset=valid_dataset,  # Added eval_dataset for validation
     dataset_text_field="text",
     max_seq_length=max_seq_length,
-    dataset_num_proc=2,
-    packing=False,  # Can make training 5x faster for short sequences.
     args=TrainingArguments(
-        per_device_train_batch_size=32,
-        gradient_accumulation_steps=2,
         warmup_steps=5,
-        max_steps=-1,
-        num_train_epochs=3,
         learning_rate=2e-4,
-        fp16=not is_bfloat16_supported(),
-        bf16=is_bfloat16_supported(),
-        logging_steps=1,
-        evaluation_strategy="steps",  # Enables evaluation during training
-        eval_steps=10,  # Frequency of evaluation
         optim="adamw_8bit",
         weight_decay=0.01,
         lr_scheduler_type="linear",

 trainer = SFTTrainer(
     model=model,
     tokenizer=tokenizer,
+    train_dataset=train_dataset,
+    eval_dataset=valid_dataset,
     dataset_text_field="text",
     max_seq_length=max_seq_length,
+    dataset_num_proc=4,  # Increase parallelism
+    packing=True,  # Enable sequence packing
     args=TrainingArguments(
+        per_device_train_batch_size=4,  # Lower batch size to prevent memory issues
+        gradient_accumulation_steps=4,  # Maintain effective batch size
         warmup_steps=5,
+        max_steps=702,  # Train in smaller chunks
+        #num_train_epochs=1,  # Test with fewer epochs
         learning_rate=2e-4,
+        fp16=False,  # Disable mixed precision temporarily
+        bf16=False,
+        logging_steps=25,  # Log less frequently
+        evaluation_strategy="steps",
+        eval_steps=50,  # Evaluate less frequently
+        max_grad_norm=1.0,  # Add gradient clipping
         optim="adamw_8bit",
         weight_decay=0.01,
         lr_scheduler_type="linear",