CharlesLi
/

OpenELM-1_1B-DPO-full-max-12-reward

Text Generation

alignment-handbook

Generated from Trainer

Model card Files Files and versions Metrics Training metrics Community

OpenELM-1_1B-DPO-full-max-12-reward

Commit History

Model save

5f0bd88
verified

CharlesLi commited on 16 days ago

Model save

754e291
verified

CharlesLi commited on 16 days ago

Model save

b6e180f
verified

CharlesLi commited on 18 days ago

initial commit

84d07f7
verified

CharlesLi commited on Sep 14