TLDR-Mistral - a RLHF-And-Friends Collection

RLHF-And-Friends 's Collections

Llama-Reward-Quantized

Llama-3.2-3B-DPO-Math

Llama-3

TLDR-Mistral

updated about 20 hours ago

RLHF-And-Friends/TLDR-Mistral-7B-RM

Text Classification • Updated 9 days ago • 8
RLHF-And-Friends/TLDR-Mistral-7B-SFT

Text Generation • Updated 4 days ago • 27
RLHF-And-Friends/TLDR-Mistral-7B-Base-PPO

Updated about 11 hours ago • 5
RLHF-And-Friends/TLDR-Mistral-7B-SFT-PPO

Text Generation • Updated 4 days ago • 17
RLHF-And-Friends/TLDR-Mistral-7B-Base-CoPPO

Updated about 13 hours ago • 3
RLHF-And-Friends/TLDR-Mistral-7B-SmallSFT

Text Generation • Updated about 17 hours ago • 2
RLHF-And-Friends/TLDR-Mistral-7B-SmallSFT-CoPPO

Text Generation • Updated about 17 hours ago