Online-DPO - a trl-lib Collection

trl-lib 's Collections

Preference datasets

Stepwise supervision datasets

Prompt-completion datasets

Prompt-only datasets

Unpaired preference datasets

Comparing DPO with IPO and KTO

Online-DPO

updated 17 days ago