Llama-3.2-3B-DPO-Math - a RLHF-And-Friends Collection

RLHF-And-Friends 's Collections

Llama-Reward-Quantized

Llama-3.2-3B-DPO-Math

Llama-3

Llama-3.2-3B-DPO-Math

updated Nov 8, 2024

This collection has no items.