+ deepspeed --master_port 15892 --module safe_rlhf.finetune --train_datasets alpaca --model_name_or_path models/alpaca-7b-reproduced --max_length 1024 --trust_remote_code True --epochs 3 --per_device_train_batch_size 8 --per_device_eval_batch_size 8 --gradient_accumulation_steps 8 --gradient_checkpointing --learning_rate 2e-5 --lr_scheduler_type cosine --lr_warmup_ratio 0.03 --weight_decay 0.0 --seed 42 --output_dir /home/juntao/Projects/roo/models/alpaca-7b-sft --log_type wandb --log_project SFT-alpaca --zero_stage 3 --offload none --bf16 True --tf32 True Loading checkpoint shards: 0%| | 0/7 [00:00