bikalnetomi
/

RLHF-PPO-RewardModel-LLama3-1B-v2

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

RLHF-PPO-RewardModel-LLama3-1B-v2 / special_tokens_map.json

Commit History

bikalnetomi/RLHF-PPO-RewardModel-LLama3-1B-v2

ddf9334
verified

bikalnetomi commited on Dec 2, 2024