XueyingJia
/

qwen-1.5b-HH-online-dpo-ground-truth-lead-xs-batch

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

qwen-1.5b-HH-online-dpo-ground-truth-lead-xs-batch / runs

1 contributor

History: 54 commits

XueyingJia's picture

Training in progress, step 5398

9c51ae9 verified 3 months ago